Professional Documents
Culture Documents
Note: Before using this information and the product it supports, read the general information under Notices sur p. 318. This document contains proprietary information of SPSS Inc, an IBM Company. It is provided under a license agreement and is protected by copyright law. The information contained in this publication does not include any product warranties, and any statements provided in this manual should not be interpreted as such. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you.
Copyright SPSS Inc. 1989, 2010.
Prface
IBM SPSS Statistics est un systme complet danalyse de donnes. Le module complmentaire facultatif Modalits fournit les techniques danalyse supplmentaires dcrites dans ce manuel. Le module complmentaire Modalits doit tre utilis avec le systme central SPSS Statistics auquel il est entirement intgr.
Support technique
Un support technique est disponible pour les clients du service de maintenance. Les clients peuvent contacter lassistance technique pour obtenir de laide concernant lutilisation des produits SPSS Inc. ou linstallation dans lun des environnements matriels pris en charge. Pour contacter lassistance technique, consultez le site Web SPSS Inc. ladresse http://support.spss.com, ou recherchez votre reprsentant local la page http://support.spss.com/default.asp?refpage=contactus.asp Votre nom, celui de votre socit, ainsi que votre contrat dassistance vous seront demands.
Service clients
Si vous avez des questions concernant votre envoi ou votre compte, contactez votre bureau local, dont les coordonnes gurent sur le site Web ladresse : http://www.spss.com/worldwide. Veuillez prparer et conserver votre numro de srie porte de main pour lidentication.
iii
Sminaires de formation
SPSS Inc. propose des sminaires de formation, publics et sur site. Tous les sminaires font appel des ateliers de travaux pratiques. Ces sminaires seront proposs rgulirement dans les grandes villes. Pour plus dinformations sur ces sminaires, contactez votre bureau local dont les coordonnes sont indiques sur le site Web ladresse : http://www.spss.com/worldwide.
Documents supplmentaires
Les ouvrages SPSS Statistics : Guide to Data Analysis, SPSS Statistics : Statistical Procedures Companion, et SPSS Statistics : Advanced Statistical Procedures Companion, crits par Marija Noruis et publis par Prentice Hall, sont suggrs comme documentation supplmentaire. Ces publications prsentent les procdures statistiques des modules SPSS Statistics Base, Advanced Statistics et Regression. Que vous soyez novice dans les analyses de donnes ou prt utiliser des applications plus avances, ces ouvrages vous aideront exploiter au mieux les fonctionnalits offertes par IBM SPSS Statistics. Pour obtenir des informations supplmentaires y compris le contenu des publications et des extraits de chapitres, visitez le site web de lauteur : http://www.norusis.com
Remerciements
Les procdures de codage optimal et leur mise en oeuvre dans IBM SPSS Statistics ont t dveloppes par le groupe DTSS (Data Theory Scaling System Group), compos de membres des dpartements denseignement et de psychologie de la Facult des sciences sociales et du comportement de lUniversit de Leyde (Pays-Bas). Willem Heiser, Jacqueline Meulman, Gerda van den Berg et Patrick Groenen ont apport leur contribution la cration des procdures initiales, en 1990. Jacqueline Meulman et Peter Neufeglise ont particip au dveloppement des procdures de rgression nominale, danalyse des correspondances, danalyse en composantes principales qualitatives et de positionnement multidimensionnel. En outre, Anita van der Kooij a spcialement contribu aux procdures CATREG, CORRESPONDENCE et CATPCA. Willem Heiser, Jacques Commandeur, Frank Busing, Gerda van den Berg et Patrick Groenen ont particip au dveloppement de la procdure PROXSCAL. Frank Busing, Willem Heiser, Patrick Groenen et Peter Neufeglise ont particip au dveloppement de la procdure PREFSCAL.
iv
Contenu
Partie I: Guide de lutilisateur 1 Introduction aux procdures de codage optimal pour les donnes qualitatives
Dfinition du codage optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Raisons de lutilisation du codage optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Niveau de codage optimal et niveau de mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Slection du niveau de codage optimal . . . . . . . . . . . . . . Diagrammes de transformation . . . . . . . . . . . . . . . . . . . . Codes de modalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Utilisation de la procdure la plus adapte votre application Rgression nominale . . . . . . . . . . . . . . . . . . . . . Analyse en composantes principales qualitatives Analyse de corrlation canonique non linaire . . Analyse des correspondances . . . . . . . . . . . . . . Analyse de correspondance multiple . . . . . . . . . Positionnement multidimensionnel. . . . . . . . . . . . Dpliage multidimensionnel . . . . . . . . . . . . . . . . . Ratio daspect des diagrammes de codage optimal . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 3 3 4 6 7 8 9 10 11 12 13 13
Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
16
Dfinir une chelle dans la rgression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Rgression nominale : Discrtisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Rgression nominale : Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Rgression nominale : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Rgularisation de rgression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Rgression nominale : Rsultat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Rgression nominale : Enregistrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 Rgression nominale des diagrammes de transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Fonctionnalits supplmentaires de la commande CATREG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
43
Dfinir intervalle et chelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Dfinir une plage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Analyse de corrlation canonique non linaire Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Fonctionnalits supplmentaires de la commande OVERALS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
50
Dfinition de la plage de ligne dans lanalyse des correspondances . . . . . . . . . . . . . . . . . . . . . . . 52 Dfinition de la plage de colonne dans lanalyse des correspondances. . . . . . . . . . . . . . . . . . . . . 52 Modle danalyse des correspondances. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Statistiques de lanalyse des correspondances. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Diagrammes de lanalyse des correspondances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Fonctionnalits supplmentaires de la commande CORRESPONDENCE . . . . . . . . . . . . . . . . . . . . 58
59
Dfinition dune pondration de variable dans une analyse de correspondance multiple. . . . . . . . 61 Analyse des correspondances multiples : Discrtisation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Analyse des correspondances multiples : Valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Analyse des correspondances multiples : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
vi
Analyse des correspondances multiples : Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 Analyse des correspondances multiples : Enregistrer. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 Analyse des correspondances multiples : Diagrammes dobjets . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Analyse des correspondances multiples : Diagrammes de variables. . . . . . . . . . . . . . . . . . . . . . . 69 Commande MULTIPLE CORRESPONDENCE - Caractristiques additionnelles . . . . . . . . . . . . . . . . 71
72
Proximits dans des matrices sur plusieurs colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Proximits sur plusieurs colonnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Proximits dans une colonne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Crer des proximits partir des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Crer une mesure partir des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 Dfinir un modle de positionnement multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Positionnement multidimensionnel : Restrictions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Positionnement multidimensionnel : Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 Positionnement multidimensionnel : Diagrammes, Version 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 Positionnement multidimensionnel : Diagrammes, Version 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Positionnement multidimensionnel : Rsultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Fonctionnalits supplmentaires de la commande PROXSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
87
Dfinir un modle de dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Restrictions du dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 Options de dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 Diagrammes de dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Rsultat du dpliage multidimensionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Fonctionnalits supplmentaires de la commande PREFSCAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
vii
Exemple : Donnes relatives la shampouineuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Analyse de rgression linaire standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Analyse de rgression nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Exemple : Donnes dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Discrtisation des variables. . . . . . . . Slection du type de transformation. . Optimisation des quantifications . . . . Effets des transformations . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. 119 119 132 134 143
145
.. .. .. .. .. .. .. .. .. .. .. .. .. .. 146 150 151 153 154 156 158 159 171 174 175 176 178 194
196
Exemple \: Analyse des rsultats denqute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Examen des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 Similarits entre les groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 Saturations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
viii
Diagrammes de transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coordonnes de modalits simples et coordonnes de modalits multiples . . Barycentres et barycentres projets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Autre analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Suggestions dordre gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.. .. .. .. .. ..
222
Normalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Exemple : Perceptions des marques de caf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 Excution de lanalyse . . . Nombre de dimensions . . Contributions . . . . . . . . . . Diagrammes . . . . . . . . . . Normalisation symtrique Lectures recommandes . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. 224 228 229 230 232 233
234
.. .. .. .. .. .. .. .. 235 238 239 240 241 243 246 250
14 Positionnement multidimensionnel
Choix du nombre de dimensions. . . . . . . . . . . . . . . . . . . . . . . . . . Solution tridimensionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Solution tridimensionnelle avec transformations personnalises . Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
252
.. .. .. .. .. 253 259 266 269 269
ix
15 Dpliage multidimensionnel
271
271 274 275 276 277 278 278 279 283 284 285 288 290 291 292 294 294 300 301 302 302 304 305 306 306
Exemple \: Prfrences alimentaires du petit-djeuner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Cration dune solution dgnre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Excution dune analyse non dgnre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple \: Dpliage tridimensionnel des prfrences relatives aux aliments du petit-djeuner . . Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espaces individuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Utilisation dune configuration initiale diffrente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espaces individuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple \: Examen de la justesse de la relation comportement-situation . . . . . . . . . . . . . . . . . . Excution de lanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformations de proximit. . . . . . . . . . . . . . . . . . . . . . . . . Modification de la transformation des proximits (ordinale) . . Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace commun . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Transformations de proximit. . . . . . . . . . . . . . . . . . . . . . . . . Lectures recommandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. .. .. ..
Annexes A Fichiers dexemple B Notices Bibliographie Index 307 318 320 326
xi
Chapitre
Les procdures de modalit font appel au codage optimal pour analyser les donnes dont lanalyse, par le biais des procdures statistiques standard, est complexe, voire impossible. Ce chapitre dcrit le fonctionnement de chacune des procdures, les circonstances dans lesquelles leur utilisation est la plus favorable, les relations entre les diffrentes procdures et les relations de ces dernires avec les procdures statistiques standard. Remarque : Ces procdures et leur mise en oeuvre IBM SPSS Statistics ont t dveloppes par le groupe DTSS (Data Theory Scaling System), compos de membres des dpartements denseignement et de psychologie de la Facult des sciences sociales et du comportement de lUniversit de Leyde (Pays-Bas).
2 Chapitre 1
Alors que les adaptations de la plupart des modles standard sont disponibles notamment pour lanalyse des donnes qualitatives, leur utilisation ne convient pas aux ensembles de donnes contenant :
Un nombre dobservations insufsant Un nombre de variables excessif Un nombre de valeurs par variable excessif
En quantiant les modalits, les mthodes de codage optimal vitent tout problme dans ces cas-l. En outre, elles savrent utiles mme si des mthodes spciques sont appropries. Habituellement, linterprtation de rsultats de codage optimal repose sur des graphiques, plutt que sur des estimations de paramtres. Les mthodes de codage optimal fournissent dexcellentes analyses exploratoires qui compltent bien les autres modles IBM SPSS Statistics. Si vous afnez votre recherche, la visualisation des donnes codes de faon optimale peut servir de base une analyse centre sur linterprtation de paramtres de modle.
Le niveau nominal signie que les valeurs dune variable reprsentent des modalits non classes. Voici quelques exemples de variables pouvant tre considres comme nominales : les modalits de rgion, de code postal, dappartenance religieuse et choix multiples. Le niveau ordinal signie que les valeurs dune variable reprsentent des modalits classes. En voici quelques exemples : les chelles dattitude reprsentant le degr de satisfaction ou de conance, et les chelles dvaluation des prfrences. Le niveau numrique signie que les valeurs dune variable reprsentent des modalits classes avec une mesure signicative, de sorte que les comparaisons de distance entre les modalits soient adquates. Lge en annes et le revenu en milliers de dollars constituent des exemples.
Par exemple, supposons que les variables rgion, travail et ge sont codes comme lindique le tableau suivant.
Table 1-1 Systme de codage de la rgion, du travail et de lge
Les valeurs mentionnes reprsentent les modalits de chaque variable. Rgion est une variable nominale. On distingue quatre modalits de rgion sans ordre intrinsque. Les valeurs 1 4 reprsentent simplement ces quatre modalits. Le systme de codage est totalement arbitraire. En revanche, la variable travail peut tre considre comme une variable ordinale. Les modalits dorigine reprsentent une progression du statut de stagiaire celui de responsable. Plus les codes sont levs, plus ils font rfrence fonction leve dans la hirarchie de lentreprise. Toutefois, seules les informations relatives lordre sont connues, mais aucun lment dinformation ne peut tre fourni concernant la distance entre les modalits adjacentes. En revanche, la variable ge peut tre considre comme une variable numrique. Dans le cas de la variable ge, les distances entre les valeurs sont intrinsquement explicites. La distance entre 20 et 22 est identique celle entre 25 et 27, alors que la distance entre 22 et 25 est suprieure ces deux distances.
Diagrammes de transformation
Les diffrents niveaux auxquels chaque variable peut tre code imposent plusieurs restrictions dans les quantications. Les diagrammes de transformation illustrent la relation entre les quantications et les modalits dorigine rsultant du niveau de codage optimal slectionn. Par exemple, un diagramme de transformation linaire est obtenu lorsquune variable est considre comme numrique. Les variables considres comme ordinales entranent la cration dun diagramme de transformation non dcroissant. Les diagrammes de transformation de variables considres comme nominales, en forme de U (ou linverse), afchent une relation quadratique. Ces variables peuvent galement crer des diagrammes de transformation sans tendance apparente
4 Chapitre 1
en changeant compltement lordre des modalits. La gure suivante reprsente un exemple de diagramme de transformation. Les diagrammes de transformation conviennent particulirement la dnition du mode de fonctionnement du niveau de codage optimal slectionn. Si plusieurs modalits reoivent des quantications similaires, la fusion de ces modalits en une seule modalit peut tre garantie. Si une variable considre comme nominale reoit des quantications afchant une tendance croissante, une transformation ordinale peut galement entraner un ajustement similaire. Si cette tendance est linaire, il peut tre appropri de considrer la variable comme numrique. Toutefois, si la fusion des modalits ou la modication des niveaux de codage est garantie, lanalyse ne varie pas de faon signicative.
Figure 1-1 Diagramme de transformation de prix (numrique)
Codes de modalit
Soyez vigilant lorsque vous codez des variables qualitatives, car certains systmes de codage peuvent gnrer des rsultats indsirables ou des analyses incompltes. Les systmes de codage applicables la variable travail sont rpertoris dans le tableau suivant.
Table 1-2 Autres systmes de codage de la variable travail
Certaines procdures de modalit exigent que la plage de valeurs de chaque variable soit dnie. Toute valeur en dehors de cette plage est considre comme manquante. La valeur minimale de modalit est toujours gale 1. La valeur maximale de modalit, quant elle, est fournie par lutilisateur. Cette valeur ne reprsente pas le nombre de modalits dune variable. Il sagit de la valeur maximale de modalit. Par exemple, dans ce tableau, le systme de codage A est dot dune
modalit maximale gale 3, et le systme de codage B, dune valeur maximale de modalit gale 7. Toutefois, ces deux systmes codent les trois mmes modalits. La plage de variables dtermine les modalits qui sont omises de lanalyse. Les modalits ayant des codes en dehors de la plage dnie sont galement omises de cette analyse. Cette mthode est certes simple pour omettre des modalits, mais elle peut entraner des analyses indsirables. Une modalit mal dnie peut omettre des modalits valides de lanalyse. Par exemple, pour le systme de codage B, dnir la valeur maximale de modalit sur 3 signie que la variable travail possde des modalits codes de 1 3. La modalit de responsable est considre comme manquante. Aucune modalit nayant t rellement code 3, la troisime modalit de lanalyse ne contient aucune observation. Si vous souhaitez omettre toutes les modalits de responsable, cette analyse est tout fait approprie. Toutefois, si des responsables doivent tre ajouts, la modalit maximale doit tre dnie sur 7 et les valeurs manquantes doivent tre codes avec des valeurs suprieures 7 ou infrieures 1. Pour les variables considres comme nominales ou ordinales, la plage des modalits na aucune incidence sur les rsultats. Pour les valeurs nominales, seule ltiquette, et non la valeur qui lui est associe, est dterminante. Pour les variables ordinales, lordre des modalits est conserv dans les quantications. Les valeurs de modalit proprement dites ne sont pas importantes. Tous les systmes de codage aboutissant au mme classement des modalits auront des rsultats identiques. Par exemple, les trois premiers systmes de codage du tableau sont fonctionnellement quivalents si la variable travail est analyse un niveau ordinal. Lordre des modalits est identique dans ces systmes. En revanche, le systme de codage D inverse les deuxime et troisime modalits, et gnre des rsultats diffrents de ceux des autres systmes. Bien que de nombreux systmes de codage de variable soient fonctionnellement quivalents, on leur prfre lutilisation dautres systmes prsentant de lgres diffrences entre les codes, car ces derniers inuent sur le nombre de rsultats gnrs par une procdure. Toutes les modalits codes dotes de valeurs comprises entre 1 et la valeur maximale dnie par lutilisateur sont valides. Si lune de ces modalits est vide, les quantications correspondantes seront manquantes par dfaut ou nulles, selon la procdure utilise. Bien quaucune de ces affectations nait dincidence sur les analyses, des rsultats sont crs pour ces modalits. Par consquent, pour le systme de codage B, la variable travail possde quatre modalits recevant des valeurs manquantes par dfaut. Pour le systme de codage C, on distingue galement quatre modalits recevant des indicateurs manquants par dfaut. En revanche, pour le systme de codage A, il nexiste aucune quantication manquante par dfaut. Utiliser des entiers conscutifs en tant que codes pour les variables traites comme des variables nominales ou ordinales gnre beaucoup moins de rsultats sans affecter pour autant les autres rsultats. Les systmes de codage des variables considres comme numriques sont plus restreints que lobservation ordinale. Pour ces variables, les diffrences entre les modalits conscutives sont signicatives. Le tableau suivant rpertorie trois systmes de codage pour la variable ge.
Table 1-3 Autres systmes de codage dge
6 Chapitre 1
Tout recodage des variables numriques doit conserver les diffrences entre les modalits. Une mthode garantissant leur conservation consiste utiliser les valeurs dorigine. Toutefois, nombreuses sont les modalits qui risquent davoir au nal des indicateurs manquants par dfaut. Par exemple, le systme de codage A emploie les valeurs observes dorigine. Pour les procdures de modalit, lexception de lAnalyse des correspondances, la valeur maximale de modalit est gale 27, et la valeur minimale de modalit est dnie sur 1. Les 19 premires modalits sont vides et reoivent des indicateurs manquants par dfaut. Le nombre de rsultats peut devenir rapidement consquent si la modalit maximale est nettement suprieure 1 et quil existe de nombreuses modalits vides comprises entre 1 et la valeur maximale. Pour rduire le nombre de rsultats, vous pouvez procder un recodage. Nanmoins, pour les variables numriques, vous ne devez pas utiliser la fonction de recodage automatique. Le codage appliqu aux entiers conscutifs gnre des diffrences de 1 entre toutes les modalits conscutives et, par consquent, lensemble des quantications est espac de la mme manire. Les caractristiques mtriques juges primordiales lorsquune variable est considre comme numrique sont supprimes par lapplication dun recodage aux entiers conscutifs. Par exemple, le systme de codage C du tableau correspond au recodage automatique de la variable ge. La diffrence entre les modalits 22 et 25 passe de trois un. Les quantications retent ce changement. Un autre systme de recodage conservant les diffrences entre les modalits consiste dduire de chaque modalit la plus petite valeur de la modalit et ajouter 1 chaque diffrence. Le systme B constitue laboutissement de cette transformation. La plus petite valeur de modalit, 20, a t dduite de chaque modalit, et 1 a t ajout chaque rsultat. Les codes transforms possdent une valeur minimale, 1, et lensemble des diffrences est identique aux donnes dorigine. La valeur maximale de modalit est dsormais gale 8. En outre, les quantications nulles prcdant la premire quantication non nulle sont toutes supprimes. Toutefois, les quantications non nulles qui correspondent chaque modalit issue du systme B sont identiques aux quantications du systme A.
La rgression nominale dcrit la relation entre une variable de rponse qualitative et une combinaison de variables indpendantes qualitatives. Linuence de chaque variable indpendante sur la variable de rponse est signale par la pondration de rgression correspondante. Comme dans les autres procdures, les donnes peuvent tre analyses avec plusieurs niveaux de codage optimal. Le positionnement et le dpliage multidimensionnels dcrivent les relations entre les objets dans un espace de petite dimension laide des proximits entre les objets. Voici quelques rgles applicables chaque procdure :
Utilisez la rgression nominale pour prvoir les valeurs dune variable dpendante qualitative issue dune combinaison de variables indpendantes qualitatives. Utilisez lanalyse en composantes principales qualitatives pour reprsenter les motifs de variation dun ensemble de variables de niveaux de codage optimal mixtes. Utilisez lanalyse de corrlation canonique non linaire pour valuer limportance de la corrlation de plusieurs ensembles de variables de niveaux de codage optimal mixtes. Utilisez lanalyse des correspondances pour analyser les tableaux de contingence deux entres ou les donnes pouvant tre fournies en tant que tableau deux entres, comme les donnes de prfrence de marque ou de choix sociomtrique. Utilisez lanalyse de correspondance multiple pour analyser une matrice de donnes multivaries qualitatives si vous souhaitez simplement que les variables soient analyses au niveau nominal. Utilisez le positionnement multidimensionnel pour analyser des donnes de proximit. Lobjectif est de trouver une reprsentation moindres carrs dun seul ensemble dobjets dans un espace de petite dimension. Utilisez le dpliage multidimensionnel pour analyser des donnes de proximit. Lobjectif est de trouver une reprsentation moindres carrs de deux ensembles dobjets dans un espace de petite dimension.
Rgression nominale
La rgression nominale convient le mieux si votre analyse a pour but de prvoir une variable (de rponse) dpendante issue dun ensemble de variables indpendantes. Comme pour toutes les procdures de codage optimal, des valeurs dchelle sont attribues chaque modalit de chaque variable, an que ces valeurs soient optimales par rapport la rgression. La solution dune rgression nominale optimise la corrlation carre entre la rponse transforme et la combinaison pondre de variables explicatives transformes.
Relation avec les autres procdures de modalit. La rgression nominale avec codage optimal est
comparable lanalyse de corrlation canonique avec codage optimal utilisant deux ensembles, dont lun contient uniquement la variable dpendante. Dans la dernire mthode, la similitude des ensembles est calcule par comparaison de chaque ensemble une variable inconnue situe entre tous les ensembles. Dans la rgression nominale, la similitude de la rponse transforme et de la combinaison linaire de variables explicatives transformes est value directement.
8 Chapitre 1
Relation avec les mthodes standard. Dans la rgression linaire standard, les variables qualitatives
peuvent tre soit recodes en tant que variables indicatrices, soit traites de la mme manire que les variables de niveau dintervalle. Dans la premire approche, le modle inclut une constante et une pente diffrentes pour chaque combinaison de niveaux des variables qualitatives. Un grand nombre de paramtres interprter est ainsi gnr. Dans la seconde approche, un seul paramtre est estim pour chaque variable. Toutefois, la nature arbitraire des codages de modalit rend toute gnralisation impossible. Si une partie des variables nest pas continue, dautres types danalyse sont disponibles. Si la rponse est continue et les variables explicatives qualitatives, lanalyse des variances est gnralement utilise. Si la rponse est qualitative et les variables explicatives continues, la rgression logistique ou lanalyse discriminante peut convenir. Si la rponse et les variables explicatives sont qualitatives, les modles log-linaires sont gnralement utiliss. La rgression avec codage optimal fournit trois niveaux de codage pour chaque variable. Les combinaisons de ces niveaux peuvent reprsenter des relations non linaires trs diverses auxquelles une mthode standard nest pas du tout adapte. Par consquent, le codage optimal savre une solution beaucoup plus souple que les approches standard un peu plus complexes. En outre, les transformations non linaires des variables explicatives rduisent habituellement les dpendances des uns par rapport aux autres. Si vous comparez les valeurs propres de la matrice de corrlation des variables explicatives avec celles de la matrice de corrlation des variables explicatives codes de faon optimale, ces dernires sont gnralement moins variables que les autres. En dautres termes, dans la rgression nominale, le codage optimal rduit les valeurs propres suprieures de la matrice de corrlation des variables explicatives et incrmente les valeurs propres infrieures.
Relation avec les autres procdures de modalit. Si toutes les variables sont dclares nominales
multiples, lanalyse en composantes principales qualitatives gnre une analyse quivalant une analyse de correspondance multiple excute sur les mmes variables. Par consquent, lanalyse en composantes principales qualitatives peut tre considre comme un type danalyse de correspondance multiple dans lequel certaines variables sont dclares ordinales ou numriques.
Relation avec les mthodes standard. Si toutes les variables sont codes au niveau numrique,
lanalyse en composantes principales qualitatives quivaut lanalyse en composantes principales standard. Plus gnralement, lanalyse en composantes principales qualitatives reprsente un autre moyen de calculer les corrlations entre les chelles non numriques, et de leur appliquer une analyse factorielle ou en composantes principales standard. Toute utilisation simpliste du coefcient de corrlation de Pearson habituel comme mesure dassociation de donnes ordinales peut avoir une incidence signicative sur lestimation des corrlations.
chacun une seule variable, lanalyse de corrlation canonique avec codage optimal quivaut lanalyse en composantes principales avec codage optimal. Si toutes les variables dune analyse de type une variable par ensemble sont nominales multiples, lanalyse de corrlation canonique avec codage optimal quivaut lanalyse de correspondance multiple. Dans le cas de deux ensembles de variables, dont lun comprend une seule variable, lanalyse de corrlation canonique avec codage optimal quivaut la rgression nominale avec codage optimal.
Relation avec les mthodes standard. Lanalyse de corrlation canonique standard est une mthode
statistique qui recherche une combinaison linaire dun premier ensemble de variables et celle dun second ensemble de variables corrles de faon optimale. Du fait de ces combinaisons linaires, lanalyse de corrlation canonique peut rechercher les ensembles indpendants de combinaisons linaires suivants, appels variables canoniques. Le nombre maximal densembles doit tre gal au nombre de variables contenues dans le plus petit ensemble. Si deux ensembles de variables sont utiliss dans lanalyse et toutes les variables dnies comme tant numriques, lanalyse de corrlation canonique avec codage optimal quivaut une analyse de corrlation canonique standard. Bien que IBM SPSS Statistics ne propose aucune procdure danalyse de corrlation canonique, vous pouvez obtenir une bonne partie des statistiques concernes par le biais de lanalyse multivarie des variances.
10 Chapitre 1
Lanalyse de corrlation canonique avec codage optimal fournit de nombreuses fonctions. Si vous utilisez deux ensembles de variables et que lun deux contient une variable nominale dclare nominale simple, les rsultats de lanalyse de corrlation canonique avec codage optimal peuvent tre interprts dune manire similaire ceux de lanalyse de rgression. Si vous considrez que cette variable est nominale multiple, lanalyse avec codage multiple constitue une alternative lanalyse discriminante. Regrouper les variables dans plus de deux ensembles vous permet danalyser les donnes de diffrentes manires.
Code de modalit 1 2 3
Code de modalit 7 8 9
Code de modalit 4 5 6
Code de modalit 10 11 12
Cette approche prsente un dfaut, savoir que toute paire de variables peut tre combine. Nous pouvons combiner travail et ge, et ainsi obtenir une autre variable de 12 modalits. Nous pouvons galement combiner rgion et ge, ce qui entrane la cration dune variable de 16 modalits. Chacune de ces variables dinteraction gnre un tableau deux entres avec lautre variable. Les analyses des correspondances de ces trois tableaux donnent des rsultats diffrents, mme si chaque rsultat est valide. En outre, dans le cas de quatre variables au moins, vous pouvez crer des tableaux deux entres comparant une variable dinteraction avec une autre. Le nombre de tableaux possibles analyser peut devenir trs important, mme pour quelques variables seulement. Vous pouvez combiner lun de ces tableaux pour lanalyse ou les analyser tous. Vous pouvez galement utiliser la procdure danalyse de correspondance multiple pour vrier toutes les variables la fois sans avoir crer de variables dinteraction.
Relation avec les mthodes standard. En outre, la procdure de tableau crois permet danalyser les tableaux de contingence, avec lindpendance comme valeur commune aux diffrentes analyses. Toutefois, mme dans les petits tableaux, dterminer lorigine dun dpart partir de la valeur dindpendance peut savrer complexe. Lanalyse des correspondances est utile car elle analyse ces motifs pour les tableaux deux entres, quelle que soit leur taille. En cas dassociation entre les variables de ligne et de colonne (cest--dire si la valeur Khi-deux est signicative), lanalyse des correspondances peut contribuer rvler la nature de la relation.
12 Chapitre 1
Relation avec les autres procdures de modalit. Lanalyse de correspondance multiple est galement appele analyse dhomognit ou double codage. Elle fournit des rsultats, certes comparables mais pas identiques, ceux de lanalyse des correspondances lorsque seules deux variables sont utilises. Lanalyse des correspondances gnre des rsultats uniques rcapitulant lajustement et la qualit de la reprsentation de la solution, y compris les informations de stabilit. Par consquent, dans le cas de deux variables, il vaut mieux gnralement prfrer lanalyse des correspondances lanalyse de correspondance multiple. Ces deux procdures prsentent une autre diffrence : le point de dpart de lanalyse de correspondance multiple est une matrice de donnes, dans laquelle les lignes sont des objets et les colonnes sont des variables. Quant au point de dpart de lanalyse des correspondances, il peut tre la mme matrice de donnes, une matrice de proximit gnrale ou un tableau de contingence joint, qui est une matrice rcapitulative o les lignes et les colonnes reprsentent des modalits de variables. Lanalyse de correspondance multiple peut galement tre assimile lanalyse en composantes principales de donnes codes au niveau nominal multiple. Relation avec les mthodes standard. Lanalyse de correspondance multiple peut tre considre comme tant lanalyse dun tableau de contingence entres multiples. Un tableau de contingence entres multiples peut galement tre analys avec la procdure de tableaux croiss, mais celle-ci fournit des statistiques rcapitulatives distinctes pour chaque modalit de chaque variable de contrle. Grce lanalyse de correspondance multiple, il est gnralement possible de rcapituler la relation entre toutes les variables laide dun diagramme bidimensionnel. Un mode dutilisation avanc de ce type danalyse consiste remplacer les valeurs de modalit dorigine par les valeurs dchelle optimale de la premire dimension, puis effectuer une analyse multivarie secondaire. Puisque lanalyse de correspondance multiple remplace les tiquettes de modalit par des valeurs dchelle numrique, de nombreuses procdures ncessitant des donnes numriques peuvent tre appliques lorsquelle est termine. Par exemple, la procdure danalyse factorielle cre une premire composante principale quivalant la premire dimension de lanalyse de correspondance multiple. Les coordonnes des composantes de la premire dimension sont identiques celles des objets et les corrlations entre composantes, aux mesures de discrimination. Nanmoins, la deuxime dimension de lanalyse de correspondance multiple est diffrente de celle de lanalyse factorielle.
Positionnement multidimensionnel
Le positionnement multidimensionnel convient le mieux si votre analyse a pour but de rechercher une structure dans un ensemble de mesures de distance entre un ensemble dobjets ou dobservations unique. Pour cela, il affecte les observations des positions particulires dans un espace conceptuel de petite dimension de telle sorte que les distances entre les points dans lespace correspondent le mieux possible aux dissimilarits donnes. Le rsultat est une reprsentation moindres carrs des objets dans cet espace de petite dimension, qui vous aidera, dans certains cas, mieux comprendre vos donnes.
Relation avec les autres procdures de modalit. Lorsque vous utilisez des donnes multivaries
partir desquelles vous crez des distances et que vous analysez ensuite avec le positionnement multidimensionnel, les rsultats savrent similaires ceux de lanalyse des donnes utilisant une analyse des composantes principales qualitatives, impliquant la standardisation principale
des objets. Ce type danalyse en composantes principales est galement appel analyse des coordonnes principales.
Relation avec les mthodes standard. La procdure de positionnement multidimensionnel qualitatif
(PROXSCAL) apporte des amliorations la procdure de codage disponible dans loption Statistiques de base (ALSCAL). PROXSCAL fournit un algorithme acclr pour certains modles et vous permet dappliquer des restrictions lespace commun. En outre, PROXSCAL tente de minimiser le stress brut normalis plutt que le stress S (galement appel pression). En gnral, on dnote une certaine prfrence pour le stress brut normalis, car cette mesure est base sur les distances, alors que le stress S est bas sur leur carr.
Dpliage multidimensionnel
Le Dpliage multidimensionnel convient mieux si votre analyse a pour but de rechercher une structure dans un ensemble de mesures de distance entre deux ensembles dobjets (appels objets de ligne et de colonne). Pour cela, il affecte les observations des positions particulires dans un espace conceptuel de petite dimension de telle sorte que les distances entre les points dans lespace correspondent le mieux possible aux dissimilarits donnes. Le rsultat est une reprsentation moindres carrs des objets de ligne et de colonne dans cet espace de petite dimension, qui vous aidera, dans certains cas, mieux comprendre vos donnes.
Relation avec les autres procdures de modalit. Si vos donnes sont constitues de distances entre un ensemble unique dobjets (une matrice carre, symtrique), utilisez Positionnement multidimensionnel. Relation avec les mthodes standard. La procdure de dpliage multidimensionnel des modalits (PREFSCAL) apporte des amliorations la fonctionnalit de dpliage disponible dans loption Statistiques de base (avec ALSCAL). PREFSCAL vous permet dinstaurer des restrictions sur lespace commun. En outre, PREFSCAL tente de minimiser une mesure de stress pnalise, laidant ainsi viter de dgnrer des solutions (auxquels les algorithmes prcdents sont enclins).
Lectures recommandes
Reportez-vous aux documents suivants pour obtenir des informations gnrales sur les mthodes de codage optimal. Barlow, R. E., D. J. Bartholomew, D. J. Bremner, et H. D. Brunk. 1972. Statistical inference under order restrictions. New York: John Wiley and Sons.
14 Chapitre 1
Benzcri, J. P. 1969. Statistical analysis as a tool to make patterns emerge from data. Dans : Methodologies of Pattern Recognition, S. Watanabe, d. New York: Academic Press. Bishop, Y. M., S. E. Feinberg, et P. W. Holland. 1975. Discrete multivariate analysis: Theory and practice. Cambridge, Massachusetts: MIT Press. De Leeuw, J. 1984. The Gi system of nonlinear multivariate analysis. Dans : Data Analysis and Informatics III, E. Diday, et al., d.. De Leeuw, J. 1990. Multivariate analysis with optimal scaling. Dans : Progress in Multivariate Analysis, S. Das Gupta, et J. Sethuraman, ds. Calcutta: Indian Statistical Institute. De Leeuw, J., et J. Van Rijckevorsel. 1980. HOMALS and PRINCALSSome generalizations of principal components analysis. Dans : Data Analysis and Informatics, E. Diday, et al., d. Amsterdam: North-Holland. De Leeuw, J., F. W. Young, et Y. Takane. 1976. Additive structure in qualitative data: An alternating least squares method with optimal scaling features. Psychometrika, 41, . Gi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons. Heiser, W. J., et J. J. Meulman. 1995. Nonlinear methods for the analysis of homogeneity and heterogeneity. Dans : Recent Advances in Descriptive Multivariate Analysis, W. J. Krzanowski, d. Oxford: Oxford University Press. Israls, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press. Krzanowski, W. J., et F. H. C. Marriott. 1994. Multivariate analysis: Part I, distributions, ordination and inference. Londres: Edward Arnold. Lebart, L., A. Morineau, et K. M. Warwick. 1984. Multivariate descriptive statistical analysis. New York: John Wiley and Sons. Max, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (Information Theory), 6, . Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden: DSWO Press. Meulman, J. J. 1992. The integration of multidimensional scaling and multivariate analysis with optimal transformations of the variables. Psychometrika, 57, . Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications. Toronto: University of Toronto Press. Nishisato, S. 1994. Elements of dual scaling: An introduction to practical data analysis. Hillsdale, New Jersey: Lawrence Erlbaum Associates, Inc. Rao, C. R. 1973. Linear statistical inference and its applications, 2nd d. New York: John Wiley and Sons. Rao, C. R. 1980. Matrix approximations and reduction of dimensionality in multivariate statistical analysis. Dans : Multivariate Analysis, Vol. 5, P. R. Krishnaiah, d. Amsterdam: North-Holland. Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten: VAM. Shepard, R. N. 1966. Metric structures in ordinal data. Journal of Mathematical Psychology, 3, .
Wolter, K. M. 1985. Introduction to variance estimation. Berlin: Springer-Verlag. Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46, .
Chapitre
La rgression nominale quantie les donnes qualitatives en affectant des valeurs numriques aux modalits ; une quation de rgression linaire optimale est ainsi cre pour les variables transformes. La rgression nominale est galement appele CATREG, acronyme de categorical regression. Lanalyse de la rgression linaire standard implique la rduction des diffrences de sommes des carrs entre une variable de rponse (dpendante) et une combinaison pondre des prdicteurs (variables indpendantes). Les variables sont habituellement quantitatives, les donnes nominales tant recodes en variables binaires ou de contraste. En consquence, les variables qualitatives servent sparer les groupes dobservations et cette technique estime des sries de paramtres distinctes pour chaque groupe. Les coefcients estims retent le mode daffectation de la rponse due aux modications des prdicteurs. Il est possible de prvoir la rponse pour nimporte quelle combinaison de valeurs de variables indpendantes. Une autre approche consiste effectuer la rgression de la rponse sur les valeurs des variables indpendantes nominales proprement dites. Dans ce cas, un seul coefcient est estim pour chaque variable. Toutefois, pour les variables qualitatives, les valeurs des modalits sont arbitraires. Le codage des modalits selon plusieurs mthodes produit diffrents coefcients, ce qui complique les comparaisons danalyses portant sur les mmes variables. CATREG constitue une extension de lapproche standard en codant simultanment les variables qualitatives, ordinales et numriques. Cette procdure quantie les variables qualitatives an que les valeurs affectes retent les caractristiques des modalits dorigine. La procdure traite les variables qualitatives quanties de la mme faon que les variables numriques. Lutilisation de transformations non linaires permet danalyser les variables diffrents niveaux an de dterminer le modle correspondant au meilleur ajustement possible.
Exemple : La rgression nominale peut tre utilise pour dcrire dans quelle mesure la satisfaction
professionnelle dpend de la modalit demploi, de la rgion et de la dure du transport. Vous pourriez ainsi dterminer que les plus hauts niveaux de satisfaction professionnelle correspondent aux postes de direction et aux temps de transport les plus faibles. Vous avez ainsi la possibilit dutiliser lquation de rgression rsultante pour prvoir la satisfaction professionnelle relative nimporte quelle combinaison de ces trois variables indpendantes.
Diagrammes et statistiques : Frquences, coefcients de rgression, tableau ANOVA, historique des itrations, valeurs affectes aux modalits, corrlations entre variables indpendantes non transformes, corrlations entre variables indpendantes transformes, les diagrammes de rsidus et de transformation. Donnes. CATREG traite les variables indicatrices de modalits. Les indicateurs de modalits
doivent tre des nombres entiers positifs. Vous pouvez utiliser la bote de dialogue Discrtisation pour convertir les variables fractionnes et les variables chane en nombres entiers positifs.
Copyright SPSS Inc. 1989, 2010 16
Hypothses : Une seule variable de rponse est autorise, mais le nombre maximal de variables explicatives est de 200. Les donnes doivent comporter au moins trois observations valides, le nombre dobservations valides ne devant pas dpasser le nombre de variables indpendantes plus un. Procdures apparentes : La procdure CATREG quivaut la procdure danalyse de corrlation
canonique nominale avec codage optimal (OVERALS) avec deux groupes, dont lun ne comporte quune seule variable. Le codage de toutes les variables au niveau numrique correspond lanalyse de rgression multiple standard.
Pour obtenir une rgression nominale
E A partir des menus, slectionnez : Analyse > Rgression > Codage optimal (CATREG)... Figure 2-1 Bote de dialogue Rgression nominale
E Slectionnez la variable dpendante, ainsi que la ou les variables indpendantes. E Cliquez sur OK.
Niveau du codage optimal : Vous pouvez galement slectionner le niveau de codage pour la quantication de chaque variable.
Spline ordinale : Lordre des modalits de la variable observe est conserv dans la variable
code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial monotone liss du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.
Spline nominale : La seule information de la variable observe qui est conserve dans la
variable code de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial liss, peut-tre non monotone, du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.
Ordinal. Lordre des modalits de la variable observe est conserv dans la variable code de
faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation ordinale spline, mais savre moins lisse.
Nominal. La seule information de la variable observe qui est conserve dans la variable code
de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation nominale spline mais savre moins lisse.
Numrique. Les modalits sont considres comme tries et espaces rgulirement (niveau
dintervalle). Lordre des modalits ainsi que les distances gales entre les nombres de modalits de la variable sont conserves dans la variable code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. Lorsque toutes les variables sont au niveau numrique, lanalyse est analogue celle en composantes principales standard.
Regroupement : Recodez en un nombre spci de modalits ou par intervalle. Classement. La variable est discrtise via le classement des observations. Multiplier : Les valeurs courantes de la variable sont standardises, multiplies par 10 et
arrondies, et possdent une constante ajoute de sorte que la valeur discrtise la plus faible soit gale 1.
20 Chapitre 2
Regroupement : Les options suivantes sont disponibles lorsque vous discrtisez des variables
par groupe :
variable doivent faire lobjet dune distribution approximativement gaussienne ou uniforme entre ces modalits.
Intervalles gaux : Les variables sont recodes en modalits dnies par ces intervalles de
Stratgie : Vous pouvez exclure des objets contenant des valeurs manquantes (suppression par liste) ou inclure des valeurs manquantes (traitement actif).
Exclure les objets contenant des valeurs manquantes sur cette variable. Les objets contenant des
valeurs manquantes dans la variable slectionne sont retirs de lanalyse. Cette option nest pas disponible pour les variables supplmentaires.
Imputer les valeurs manquantes. Des valeurs sont prises en compte pour les objets contenant
des valeurs manquantes sur la variable slectionne. Vous pouvez choisir la mthode dimputation. Slectionnez Mode pour remplacer les valeurs manquantes par la modalit la plus frquente. Sil existe plusieurs modes, utilisez celui dont lindicateur de modalits est le plus petit. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant
une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).
Objets supplmentaires : Cette option permet de dnir les objets traiter comme objets supplmentaires. Entrez simplement le numro dun objet supplmentaire (ou spciez un intervalle dobservations), puis cliquez sur Ajouter. Vous ne pouvez pas pondrer des objets supplmentaires (les pondrations indiques sont ignores). Configuration initiale : Si aucune variable nest considre comme nominale, slectionnez la
conguration Numrique. Si une variable au moins est considre comme nominale, choisissez la conguration Alatoire. Si au moins une variable a un niveau dchelle ordinal ou Spline ordinal, lalgorithme habituel pour les modles peut galement gnrer une solution moins optimale. Choisir les Dparts multiples systmatiques avec tous les types de signes possibles permettra toujours de trouver la
22 Chapitre 2
solution optimale, mais la dure dexcution requise augmente rapidement en mme temps que le nombre de variables ordinales et Spline ordinales dans lensemble de donnes. Vous pouvez rduire le nombre de types de test en spciant un pourcentage de perte de seuil de variance, pour lequel plus le seuil est lev, plus le nombre de types de signes exclus augmente. Cette option ne permet pas de garantir lobtention de la solution optimale, mais elle rduit le risque dobtenir une solution moins optimale. De plus, si la solution optimale nest pas trouve, il y a moins de chances que la solution moins optimale soit trs diffrente de la solution optimale. Lorque des dparts multiples systmatiques sont demands, les signes des coefcients de rgression pour chaque dpart sont crits dans un chier de donnes IBM SPSS Statistics externe ou dans un ensemble de donnes de la session en cours. Pour plus dinformations, reportez-vous la section Rgression nominale : Enregistrement sur p. 26. Les rsultats dune excution prcdente avec dparts multiples systmatiques vous permettent d
Utiliser des signes fixes pour les coefficients de rgression. Les signes (indiqus par 1 et 1) doivent
se trouver dans une ligne de lensemble de donnes ou du chier spcis. Le chiffre de dpart valeur entire est le numro dobservation de la ligne de ce chier qui contient les signes utiliser.
Critres. Vous pouvez spcier le nombre maximal ditrations que la rgression peut prendre
en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. La rgression interrompt son itration ds que la diffrence du total ajust entre les deux dernires itrations est infrieur la valeur de la convergence, ou ds que le nombre maximal ditrations est atteint.
Etiqueter les diagrammes par : Vous permet de prciser si les tiquettes de variable et de valeurs
ou les noms ou valeurs de variables sont utiliss dans les diagrammes. Vous pouvez galement spcier une longueur maximale pour les tiquettes.
Mthode. Les mthodes de rgularisation peuvent amliorer lerreur de prdiction du modle en rduisant la variabilit des estimations du coefcient de rgression laide dune rduction des estimations tendant vers 0. Le Lasso et Elastic Net rduiront certaines estimations de coefcient 0 exactement, permettant ainsi une forme de slection de variables. Lorsquune mthode de rgularisation est demande, le modle et les coefcients rgulariss pour chaque valeur de coefcient de pnalit sont crits dans un chier de donnes IBM SPSS Statistics externe ou un ensemble de donnes de la session en cours. Pour plus dinformations, reportez-vous la section Rgression nominale : Enregistrement sur p. 26.
pnalit gal la somme des coefcients au carr multiple par un coefcient de pnalit. Ce coefcient peut tre compris entre 0 (aucune pnalit) et 1 ; cette procdure recherchera la meilleure valeur de pnalit si vous spciez un intervalle et un incrment.
Lasso. Le terme de pnalit de Lasso est bas sur la somme des coefcients absolus
et la spcication dun coefcient de pnalit est semblable celle dune rgression pseudo-orthogonale. Nanmoins, le Lasso ncessite beaucoup plus de calculs.
Elastic net. Elastic Net regroupe simplement les pnalits de rgression Lasso et de crte et
effectuera une recherche dans la grille des valeurs spcies pour trouver les meilleurs coefcients de pnalit de rgression Lasso et de crte. Pour une paire de pnalits de rgression Lasso et de crte donne, Elastic Net ne ncessite pas plus de calculs que le Lasso.
24 Chapitre 2
Afficher les diagrammes de rgularisation. Il sagit de diagrammes comparant les coefcients de rgression et la pnalit de rgularisation. Pendant que ce diagramme recherche un intervalle de valeurs pour le meilleur coefcient de pnalit, il afche les modications des coefcients de rgression dans cet intervalle. Diagrammes Elastic Net. Pour la mthode Elastic Net, des diagrammes de rgularisation spars
sont gnrs par les valeurs de la pnalit de rgression de crte. La fonction Tous les diagrammes possibles utilise chaque valeur de lintervalle dtermin par les valeurs minimum et maximum de pnalit de rgression de crte spcies. La fonction Pour certaines pnalits de crte permet de spcier un sous-ensemble des valeurs dans lintervalle dtermin par le minimum et le maximum. Entrez simplement le chiffre dune valeur de pnalit (ou spciez un intervalle de valeurs), puis cliquez sur Ajouter.
ANOVA : Cette option prsente les sommes des carrs de rgression et des rsidus, le moyenne
des carrs ainsi quun test-F. Deux tableaux ANOVA sont afchs : Lun avec des degrs de libert pour la rgression gaux au nombre de variables explicatives, et lautre avec les degrs de libert pour la rgression prenant en compte le codage optimal.
des btas, lerreur standard des btas, des valeurs t et la signication ; le tableau Coefcients : Codage optimal qui contient lerreur standard des btas prenant en compte les degrs de libert du codage optimal ; le tableau des corrlations simples et partielles, qui comporte les mesures dimportance relative de Pratt pour les variables indpendantes transformes, ainsi que la tolrance avant et aprs transformation.
Historique ditration. Pour chaque itration, y comprises les valeurs de dpart de lalgorithme,
le R multiple et lerreur de rgression apparaissent. Laugmentation dans le R multiple est rpertorie en commenant partir de la premire itration.
Corrlations des variables dorigine : Une matrice afchant les corrlations entre les variables
de rgression pour chaque modle rgularis. Si une mthode de rchantillonnage est spcie ou si des objets supplmentaires (observations de test) sont spcis, lerreur de prvision ou la MSE de test sont galement afches.
Rchantillonnage. Les mthodes de rchantillonnage offrent une estimation de lerreur de prdiction du modle.
ou niveaux. Les modles de rgression nominale sont gnrs en excluant tour de rle les donnes de chaque sous-chantillon. Le premier modle est bas sur toutes les observations exceptes celles du premier sous-chantillon, le deuxime modle est bas sur toutes les observations exceptes celles du deuxime sous-chantillon, etc. Pour chaque modle, lerreur de prdiction est estime en appliquant le modle au sous-chantillon exclu lors de sa gnration.
Bootstrap .632 Avec le bootstrap, les observations sont extraites alatoirement partir des
donnes avec remplacement. Ce processus se rpte autant de fois que ncessaire pour obtenir un nombre dchantillons du bootstrap. Un modle est adapt chaque chantillon du bootstrap et lerreur de prdiction de chaque modle est estime par ce modle et est ensuite applique aux observations ne se trouvant pas dans lchantillon du bootstrap.
Valeurs affectes aux modalits : Les tableaux des valeurs transformes des variables slectionnes
apparaissent.
Statistiques descriptives : Les tableaux afchant les frquences, les valeurs manquantes et les
26 Chapitre 2
Les ensembles de donnes sont disponibles lors de la session en cours mais ne sont pas disponibles lors des sessions suivantes, sauf si vous les enregistrez clairement comme chiers de donnes. Les noms des ensembles de donnes doivent tre conformes aux rgles de dnomination de variables. Les noms de chiers ou les noms de lensemble de donnes doivent tre diffrents pour chaque type de donnes enregistres.
Les modles et coefcients rgulariss sont enregistrs chaque fois quune mthode de rgularisation est slectionne dans la bote de dialogue Rgularisation. Par dfaut, la procdure cre un nouvel ensemble de donnes avec un nom unique, mais vous pouvez spcier le nom de votre choix ou crire dans un chier externe. Les signes des coefcients de rgression sont enregistrs chaque fois que des dparts multiples systmatiques sont utiliss comme conguration initiale dans la bote de dialogue Options . Par dfaut, la procdure cre un nouvel ensemble de donnes avec un nom unique, mais vous pouvez spcier le nom de votre choix ou crire dans un chier externe.
Diagrammes de transformation : Pour chacune de ces variables, les valeurs affectes aux
modalits sont reprsentes par rapport aux valeurs des modalits dorigine. Les modalits vides apparaissent sur laxe horizontal mais naffectent pas les calculs. Ces modalits sont identies par des interruptions dans la courbe reliant les valeurs affectes.
Diagrammes de rsidus : Pour chacune de ces variables, les rsidus (calculs pour la variable dpendante partir de toutes les variables explicatives excepte la variable explicative en question) sont appliqus aux indicateurs de modalits et aux valeurs affectes aux modalits optimales multiplies par bta par rapport aux indicateurs de modalits.
Spcier les noms de racine des variables transformes lorsque vous les enregistrez dans lensemble de donnes actif (avec la sous-commande SAVE).
Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.
Chapitre
Cette procdure quantie simultanment des variables qualitatives en rduisant le nombre de dimensions des donnes. Lanalyse en composantes principales qualitatives est galement appele CATPCA, acronyme de CATegorical Principal Components Analysis. Le but dune telle analyse est de rduire un groupe original de variables en un groupe plus petit de composantes non corrles reprsentant la plupart des informations rencontres dans les variables dorigine. Cette technique est dune grande utilit lorsquun grand nombre de variables empche dinterprter efcacement les relations entre les objets (sous-objets et units). En rduisant le nombre de dimensions, vous pouvez interprter plusieurs composantes et non plus un grand nombre de variables. Lanalyse en composantes principales standard comporte des relations linaires entre les variables numriques. Dun autre ct, lapproche du codage optimal permet aux variables dtre codes diffrents niveaux. Les variables qualitatives sont quanties de faon optimale par rapport au nombre de dimensions spci. En consquence, des relations non linaires entre les variables peuvent tre spcies.
Exemple : Lanalyse en composantes principales qualitatives peut tre utilise an de reprsenter
sur un diagramme les relations entre la modalit demploi, la rgion, le temps de transport (lev, moyen ou faible), et la satisfaction professionnelle. Vous constatez peut-tre que deux dimensions reprsentent une part importante de la variance. La premire dimension peut sparer les modalits demploi par rgion, alors que la seconde spare les modalits socioprofessionnelles en fonction du temps de transport. Notez galement que la satisfaction professionnelle est lie au temps moyen de transport.
Diagrammes et statistiques : Effectifs, valeurs manquantes, niveau de codage optimal, mode,
variance reprsente par les coordonnes du barycentre, coordonnes vectorielles, total par variable et par dimension, corrlations entre composantes et variables initiales pour variables quanties par vecteur, valeurs affectes aux modalits et coordonnes, historique des itrations, corrlations des variables transformes et des valeurs propres de la matrice de corrlation, corrlations des variables dorigine et des valeurs propres de la matrice de corrlation, coordonnes des objets, diagrammes de modalits, diagrammes de modalits joints, diagrammes de transformation, diagrammes rsiduels, diagrammes de reprsentation des barycentres projets, diagrammes dobjets, diagrammes doubles, diagrammes triples et diagrammes des corrlations entre composantes et variables initiales.
Donnes : Les variables chane sont toujours converties en nombres entiers positifs par ordre
croissant alphanumrique. Les valeurs manquantes dnies par lutilisateur, les valeurs manquantes par dfaut et les valeurs infrieures 1 sont considres comme manquantes ; vous
Copyright SPSS Inc. 1989, 2010 28
pouvez donc recoder ou ajouter une constante aux variables contenant des valeurs infrieures 1 pour les dnir comme non manquantes.
Hypothses : Les donnes doivent contenir au moins trois observations valides. Lanalyse repose sur des donnes sous forme de nombres entiers positifs. Loption de discrtisation classe automatiquement une variable fractionne en regroupant ses valeurs en modalits avec une distribution normale et convertit automatiquement les valeurs des variables chane en nombre entiers positifs. Vous pouvez en outre, spcier dautres schmas de discrtisation. Procdures apparentes : Le codage de toutes les variables au niveau numrique correspond lanalyse en composantes principales standard. Les fonctionnalits de reprsentation alterne sont disponibles en utilisant les variables transformes dans une analyse en composantes principales linaires standard. Si toutes les variables possdent des niveaux de codage nominal multiple, lanalyse en composantes principales qualitatives est identique lanalyse des correspondances. Si des groupes de variables sont intressants, vous devez utiliser une analyse des corrlations canoniques nominales (non linaires).
E Slectionnez Certaines variables non nominales multiples. E Slectionnez Un groupe. E Cliquez sur Dfinir.
solution.
E Cliquez sur OK.
Vous pouvez peut-tre spcier des variables supplmentaires qui sont ajustes la solution trouve, ou des variables dtiquettes pour les diagrammes.
31 Analyse en composantes principales qualitatives (CATPCA) Figure 3-3 Dfinir lchelle et la pondration
Pondration de la variable : Vous pouvez choisir une pondration pour chaque variable. La valeur
spcie doit tre un nombre entier positif. La valeur par dfaut est 1.
Niveau du codage optimal : Vous pouvez galement slectionner le niveau de codage utiliser pour
Spline ordinale : Lordre des modalits de la variable observe est conserv dans la variable
code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial monotone liss du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.
Spline nominale : La seule information de la variable observe qui est conserve dans la
variable code de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation rsultante est un modle polynomial liss, peut-tre non monotone, du degr choisi. Ses diffrents lments dpendent du nombre de noeuds intrieurs dni par lutilisateur ainsi que du positionnement de ces derniers, dtermin par la procdure.
Nominal multiple : La seule information de la variable observe qui est conserve dans la
variable code de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur les barycentres des objets dans les modalits particulires. Loption Multiple indique que divers groupes de valeurs affectes sont obtenus pour chaque dimension.
Ordinal :Lordre des modalits de la variable observe est conserv dans la variable code de
faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation ordinale spline, mais savre moins lisse.
Nominal :La seule information de la variable observe qui est conserve dans la variable code
de faon optimale est le groupe des objets dans les modalits. Lordre des modalits de la variable observe nest pas conserv. Les points des modalits se trouvent sur une ligne
32 Chapitre 3
droite (vecteur) passant par lorigine. La transformation du rsultat convient mieux que la transformation nominale spline mais savre moins lisse.
Numrique. Les modalits sont considres comme tries et espaces rgulirement (niveau
dintervalle). Lordre des modalits ainsi que les distances gales entre les nombres de modalits de la variable sont conserves dans la variable code de faon optimale. Les points des modalits se trouvent sur une ligne droite (vecteur) passant par lorigine. Lorsque toutes les variables sont au niveau numrique, lanalyse est analogue celle en composantes principales standard.
Rang : La variable est discrtise via le classement des observations. Multiplier : Les valeurs courantes de la variable sont standardises, multiplies par 10 et
arrondies, et possdent une constante ajoute de sorte que la valeur discrtise la plus faible soit gale 1.
Regroupement : Les options suivantes sont disponibles lorsque vous discrtisez des variables
par groupe :
variable doivent faire lobjet dune distribution approximativement gaussienne ou uniforme entre ces modalits.
Intervalles gaux : Les variables sont recodes en modalits dnies par ces intervalles de
34 Chapitre 3
Stratgie : Choisissez dexclure les valeurs manquantes (traitement passif), daffecter des valeurs (traitement actif) ou dexclure les objets contenant des valeurs manquantes (suppression des observations incompltes).
Exclure les valeurs manquantes pour affectation de corrlations aprs quantification. Les objets
contenant des valeurs manquantes sur la variable slectionne ne contribuent pas lanalyse de cette variable. Si un traitement passif est effectu sur toutes les variables, les objets dont les variables comportent des valeurs manquantes sont traits comme tant supplmentaires. Si les corrlations sont spcies dans la bote de dialogue Rsultat, les valeurs manquantes aprs analyse sont alors prises en compte avec la modalit la plus frquente ou le mode de la variable pour les corrlations des variables dorigine. Pour corrler des variables codes de faon optimale, vous devez choisir une mthode dimputation. Slectionnez Mode pour remplacer les valeurs manquantes par le mode de la variable code de faon optimale. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).
Inclure les valeurs manquantes. Des valeurs sont prises en compte pour les objets contenant
des valeurs manquantes sur la variable slectionne. Vous pouvez choisir la mthode dimputation : Slectionnez Mode pour remplacer les valeurs manquantes par la modalit la plus frquente. Sil existe plusieurs modes, utilisez celui dont lindicateur de modalits est le plus petit. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).
Exclure les objets contenant des valeurs manquantes sur cette variable. Les objets contenant des
valeurs manquantes dans la variable slectionne sont retirs de lanalyse. Cette option nest pas disponible pour les variables supplmentaires.
dernier numros dobservation dune plage dobjets que vous souhaitez dnir comme objet supplmentaire, puis cliquez sur Ajouter. Poursuivez jusqu ce que vous ayez indiqu tous les objets supplmentaires. Si un objet est spci comme supplmentaire, alors les pondrations dobservation est ignore pour cet objet.
Mthode de standardisation : Vous pouvez spcier lune des cinq options de standardisation des
coordonnes des objets et des variables. Une seule mthode de standardisation peut tre utilise dans une analyse donne.
Variable principale : Cette option optimise lassociation entre les variables. Les coordonnes
des variables dans lespace objet correspondent aux corrlations entre composants et variables initiales (corrlations comportant des composantes principales telles que des dimensions et des coordonnes dobjets). Cela est utile si vous tes avant tout intress par les corrlations entre variables.
Objet principal : Cette option optimise les distances entre les objets. Cela est utile si vous tes
36 Chapitre 3
Indpendant : Utilisez cette option de standardisation si vous souhaitez examiner les distances
entre les objets ainsi que les corrlations entre variables sparment.
Personnalise : Vous pouvez spcier toute valeur relle comprise dans lintervalle [1, 1].
Une valeur de 1 correspond la mthode Objet principal, une valeur de 0 correspond la mthode Symtrique, et une valeur de 1 la mthode Variable principale. En spciant une valeur comprise entre 1 et 1, la valeur propre peut comprendre la fois les objets et les variables. Cette mthode est utile pour effectuer des diagrammes doubles ou triples.
Critres : Vous pouvez spcier le nombre maximum ditrations que la procdure peut prendre
en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. Lalgorithme interrompt son itration ds que la diffrence du total ajust entre les deux dernires itrations est infrieur la valeur de la convergence ou ds que le nombre maximum ditrations est atteint.
Etiqueter les diagrammes par : Vous permet de prciser si les tiquettes de variable et de valeurs
ou les noms ou valeurs de variables sont utiliss dans les diagrammes. Vous pouvez galement spcier une longueur maximale pour les tiquettes.
Dimensions du diagramme. Permet de contrler les dimensions contenues dans le rsultat.
Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solution
dimensions reprsentes. Si vous restreignez ces dimensions, vous devez slectionner la plus petite et la plus grande tracer. La plus petite dimension peut tre comprise entre 1 et le nombre de dimensions contenues dans la solution moins 1. En outre, elle est reprsente par rapport aux dimensions plus grandes. La valeur de dimension la plus leve peut tre comprise entre 2 et le nombre de dimensions contenues dans la solution. Par ailleurs, elle indique la plus grande dimension utiliser pour le traage des paires de dimensions. Cette spcication sapplique lensemble des reprsentations multidimensionnelles demandes.
Configuration : Vous pouvez lire les donnes dun chier contenant les coordonnes de la
conguration. La premire variable du chier doit contenir les coordonnes de la premire dimension, la deuxime variable, celles de la deuxime dimension, et ainsi de suite.
Initiale : La conguration du chier spci sera utilise comme point de dpart de lanalyse. Fixe : La conguration du chier spci sera utilise pour ajuster les variables. Les variables
ainsi ajustes doivent tre slectionnes comme des variables danalyse, mais la conguration tant xe, elles doivent tre considres comme des variables supplmentaires (il est donc inutile de les slectionner comme telles).
Coordonnes des objets : Afche les coordonnes des objets avec les options suivantes :
Inclure les modalits de : Prsente les indicateurs de modalits des variables danalyse
slectionnes.
Etiqueter les objets du diagramme par : Vous pouvez slectionner lune des variables spcies
variables initiales pour toutes les variables nayant pas reu de niveau de codage nominal multiple.
Historique des itrations : Pour chaque itration, la variance reprsente, la perte et laugmentation
transformes (codes de faon optimale) ainsi que les valeurs propres de cette matrice.
Variance explique par : Afche le nombre de variances reprsentes par les coordonnes du
barycentre, les coordonnes vectorielles et le total (coordonnes du barycentre et vectorielles combines) par variable et par dimension.
Valeurs affectes aux modalits : Indique les valeurs affectes aux modalits et les coordonnes
38 Chapitre 3
Les ensembles de donnes sont disponibles lors de la session en cours mais ne sont pas disponibles lors des sessions suivantes, sauf si vous les enregistrez clairement comme chiers de donnes. Les noms des ensembles de donnes doivent tre conformes aux rgles de dnomination de variables. Les noms de chiers ou les noms de lensemble de donnes doivent tre diffrents pour chaque type de donnes enregistres. Si vous enregistrez les coordonnes des objets ou les valeurs transformes dans lensemble de donnes actif, vous pouvez indiquer le nombre des dimensions nominales multiples.
Points des objets. Un diagramme des points des objets safche. Objets et variables (biplot) : Les points des objets sont reprsents avec les coordonnes de variables
barycentres des variables de niveau de codage nominal multiple et avec les corrlations entre composants et variables initiales des autres variables.
Variables des biplots et triplots : Vous pouvez choisir dutiliser toutes les variables des diagrammes doubles et triples ou de slectionner un sous-groupe.
40 Chapitre 3
Etiqueter objets : Vous pouvez choisir dtiqueter des objets avec les modalits des variables
slectionnes (choisissez les valeurs des indicateurs de modalits ou les tiquettes de valeurs dans la bote de dialogue Options) ou avec le nombre dobservations. Si vous avez slectionn Variables, un seul diagramme est cr par variable.
Diagrammes de modalits : Pour chaque variable slectionne, un diagramme des coordonnes du barycentre et vectorielles est reprsent. Pour les variables contenant des niveaux de codage nominal multiple, les modalits gurent dans les barycentres des objets des modalits particulires. Pour les autres niveaux de codage, les modalits gurent dans un vecteur passant par lorigine. Joindre les diagrammes de modalits : Il sagit dun diagramme simple reprsentant les
Diagrammes de transformation : Afche un diagramme des valeurs affectes aux modalits optimales contre les indicateurs de modalits. Vous pouvez spcier le nombre de dimensions souhait pour les variables contenant des niveaux de codage nominal multiple. Un diagramme sera alors gnr pour chaque dimension. Il vous est galement possible de choisir dafcher des diagrammes rsiduels pour chaque variable slectionne. Projeter les barycentres de : Vous pouvez choisir une variable et projeter ses barycentres sur les variables slectionnes. Les variables comportant un niveau de codage nominal multiple ne peuvent pas tre slectionnes pour tre projetes. Lorsque vous lancez ce diagramme, un tableau dot des coordonnes des barycentres projets est galement afch.
Afficher les corrlations entre composants. Si cette option est slectionne, un diagramme des
42 Chapitre 3
Inclure les barycentres. Les variables de niveau de codage nominal multiple ne possdent pas de corrlation mais vous pouvez choisir dinclure leurs barycentres dans le diagramme. Vous pouvez utiliser toutes les variables qualitatives multiples ou slectionner un sous-groupe.
Spciez les noms de racine des variables transformes, les coordonnes des objets et les approximations lorsque vous les enregistrez dans lensemble de donnes actif (avec la sous-commande SAVE). Spcier la longueur maximale pour les tiquettes de chaque diagramme sparment (avec la sous-commande PLOT). Spcier une liste de variables distincte pour les diagrammes rsiduels (avec la sous-commande PLOT).
Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.
Chapitre
Lanalyse de corrlation canonique non linaire correspond lanalyse de corrlation canonique nominale avec codage optimal. Le but de cette procdure est de dterminer la similitude entre les groupes de variables qualitatives et les autres. Cette analyse est galement connue sous lacronyme OVERALS. Lanalyse de corrlation canonique standard est une extension de la rgression multiple, dans laquelle le second groupe ne contient pas de variable de rponse unique, mais contient des variables de rponses multiples la place. Elle sert expliquer autant que possible la variance tire des relations entre deux groupes de variables numriques dans un espace de petite dimension. Initialement, les variables de chaque groupe sont combines de faon linaire de sorte que les combinaisons comportent une corrlation maximale. Compte tenu de ces combinaisons, celles qui sont linaires sont dtermines par celles qui ne le sont pas avec les combinaisons prcdentes et par celles ayant la plus importante corrlation. Lapproche de codage optimal dveloppe lanalyse standard de trois faons diffrentes. Dabord, OVERALS vous permet davoir plus de deux groupes de variables. Deuximement, les variables peuvent tre codes soit de faon nominale, soit ordinale, soit numrique. En consquence, des relations non linaires entre les variables peuvent tre analyses. Enn, au lieu doptimiser les corrlations entre les groupes de variable, ceux-ci sont compars un groupe de compromis inconnu dni par les coordonnes des objets.
Exemple : Lanalyse de corrlation canonique nominale avec codage optimal peut tre utilise pour
afcher graphiquement la relation entre un groupe de variables contenant une modalit demploi et les annes dtude, et un autre groupe de variables contenant la zone de rsidence et le sexe. Il est possible que vous trouviez que les annes dtude et la zone de rsidence tablissent une diffrence plus importante que les autres variables. Mais, vous pouvez considrer que les annes dtude tablissent une diffrence fondamentale sur la premire dimension.
Diagrammes et statistiques : Effectifs, barycentres, historique des itrations, coordonnes des
objets, valeurs affectes aux modalits, pondrations et corrlations entre composantes et variables initiales, ajustement unique et multiple, diagramme de coordonnes des objets, diagrammes de coordonnes des modalits, diagrammes de corrlations entre composantes et variables initiales, diagrammes de centres de classes et diagrammes de transformation.
Donnes : Utilisez des entiers pour coder les variables qualitatives (niveau de codage nominal ou ordinal). Pour rduire le nombre de rsultats, utilisez des entiers conscutifs commenant par 1 pour coder les variables. Les variables codes un niveau numrique ne doivent pas tre recodes en entiers conscutifs. Pour rduire le nombre de rsultats, pour chaque variable code
43
44 Chapitre 4
un niveau numrique, soustrayez la plus petite valeur observe de chaque valeur et ajoutez-lui 1. Les valeurs fractionnelles sont tronques aprs la dcimale.
Hypothses : Les variables peuvent tre classes en deux groupes ou plus. Les variables dans lanalyse sont codes sous forme nominale multiple, nominale simple, ordinale ou numrique. Le nombre maximum de dimensions utilises dans la procdure dpend du niveau de codage optimal des variables. Si toutes les variables sont indiques comme tant ordinales, nominales simples ou numriques, le nombre maximum de dimensions est le plus petit des deux valeurs suivantes : le nombre dobservations moins 1 ou le nombre total des variables. Cependant, si seuls les deux groupes de variables sont dnis, le nombre maximum de dimensions correspond au nombre de variables du plus petit groupe. Si plusieurs variables sont nominales multiples, le nombre maximum de dimensions correspond au nombre total de modalits nominales multiples plus le nombre de variables qualitatives non multiples et moins le nombre de variables qualitatives multiples. Par exemple, si lanalyse implique cinq variables et si lune delles est nominale multiple avec quatre modalits, le nombre maximum de dimensions est (4 + 4 1) ou 7. Si vous spciez un nombre suprieur au maximum, la valeur maximale est alors utilise. Procdures apparentes : Si chaque groupe contient une variable, lanalyse de corrlation
canonique non linaire quivaut lanalyse des composantes principales avec codage optimal. Si chacune de ces variables est nominale multiple, lanalyse correspond lanalyse de correspondance multiple. Si deux groupes de variables sont impliqus et que lun deux contient une seule variable, lanalyse correspond une rgression nominale avec codage optimal.
Obtenir une analyse de corrlation canonique non linaire
E A partir des menus, slectionnez : Analyse > Rduction des dimensions > Codage optimal Figure 4-1 Bote de dialogue Niveau du codage optimal
E Slectionnez soit Toutes les variables qualitatives multiples, soit Certaines variables non nominales multiples. E Slectionnez Plusieurs groupes.
45 Analyse canonique non linaire (OVERALS) E Cliquez sur Dfinir. Figure 4-2 Bote de dialogue Analyse canonique non linaire (OVERALS)
E Dnissez au moins deux groupes de variables. Slectionnez les variables que vous souhaitez inclure dans le premier groupe. Pour atteindre le dernier groupe, cliquez sur Suivant et slectionnez
les variables inclure dans le second. Vous pouvez galement, si vous le souhaitez, ajouter des groupes supplmentaires. Cliquez sur Prcdent pour revenir au groupe de variables dni prcdemment.
E Dnissez la plage de valeurs et lchelle de mesure (niveau de codage optimal) pour chaque
variable slectionne.
E Cliquez sur OK. E Eventuellement :
Slectionner une ou plusieurs variables pour fournir les tiquettes de point aux diagrammes de coordonnes des objets. Chaque variable produit un diagramme spar, avec les points tiquets par ses valeurs. Vous devez dnir une plage pour chacune de ces variables dtiquettes de diagrammes. Lorsque vous utilisez la bote de dialogue, une variable unique ne peut pas tre utilise la fois dans lanalyse et sous forme de variable dtiquette. Si vous souhaitez tiqueter un diagramme de coordonnes des objets avec une variable utilise dans lanalyse, utilisez le sous-menu Calculer (disponible depuis le menu Transformer) pour crer
46 Chapitre 4
une copie de cette variable. Utilisez la nouvelle variable pour tiqueter le diagramme. Il vous est galement possible dutiliser la syntaxe de commande.
Indiquez le nombre de dimensions souhaites dans la solution. En gnral, choisissez autant de dimensions que ncessaires pour expliquer le maximum de la variation. Si lanalyse implique plusieurs dimensions, des diagrammes 3D des trois premires dimensions sont crs. Dautres dimensions peuvent galement tre afches en ditant le diagramme.
Vous devez dnir une plage pour chaque variable. La valeur maximale indique doit tre un nombre entier. Les valeurs des donnes fractionnelles sont tronques dans lanalyse. Une valeur de modalit situe en dehors de la plage spcie est ignore dans lanalyse. Pour rduire le nombre de rsultats, utilisez le sous-menu Recoder automatiquement (disponible depuis le menu Transformer) pour crer des modalits conscutives commenant par 1 pour des variables considres comme nominales ou ordinales. Recoder en entiers conscutifs nest pas recommand pour les variables codes un niveau numrique. Pour rduire le nombre de rsultats pour les variables traites comme numriques, pour chaque variable, soustrayez la valeur minimale de chaque valeur et ajoutez-lui 1. Vous pouvez galement slectionner le codage utiliser pour quantier chaque variable.
Ordinal : Lordre des modalits de la variable observe est conserv dans la variable quantie. Nominal simple : Dans la variable quantie, les objets dune mme modalit reoivent les
mmes coordonnes.
Nominal multiple : Les quantications peuvent diffrer pour chaque dimension. Numrique discret : Les modalits sont considres comme tries et espaces rgulirement.
Les diffrences entre le nombre des modalits et lordre de celles de la variable observe sont conserves dans la variable quantie.
Vous devez dnir une plage pour chaque variable. La valeur maximale indique doit tre un nombre entier. Les valeurs des donnes fractionnelles sont tronques dans lanalyse. Une valeur de modalit situe en dehors de la plage spcie est ignore dans lanalyse. Pour rduire le nombre de rsultats, utilisez le sous-menu Recoder automatiquement (disponible depuis le menu Transformer) pour crer des modalits conscutives commenant par 1. Vous devez galement dnir un intervalle pour chaque variable utilise pour tiqueter les diagrammes de coordonnes des objets. Cependant, les tiquettes des modalits comportant des valeurs de donnes situes en dehors de la plage dnie pour la variable apparaissent sur les diagrammes.
Afficher : Les statistiques disponibles incluent les effectifs marginaux, les barycentres, lhistorique des itrations, les pondrations et corrlations entre composantes et variables initiales, les valeurs affectes aux modalits, les coordonnes des objets et lajustement unique et multiple.
des objets (observations) inclus dans chaque ensemble pour ceux qui appartiennent la mme catgorie de la variable.
de rgression dans chaque dimension pour chaque variable quantie dun groupe. Les coordonnes des objets sont rgresses sur les variables quanties et la projection de la variable est quantie dans lespace dobjet. Fournit une indication de la contribution que chaque variable apporte la dimension dans chaque classe.
dune variable.
Coordonnes des objets. Quantication optimale affecte un objet (observation) dans une
dimension particulire.
Diagramme : Vous pouvez gnrer des diagrammes de coordonnes des modalits, de coordonnes
des objets, de corrlations entre composantes et variables initiales, de centres de classes et de transformation.
Enregistrer les coordonnes des objets : Il est possible denregistrer les coordonnes des objets en
tant que nouvelles variables dans lensemble de donnes actif. Ces coordonnes sont enregistres en fonction du nombre de dimensions spcies dans la bote de dialogue principale.
Utiliser configuration initiale alatoire : Une conguration initiale alatoire doit tre utilise si
une partie ou la totalit des variables est nominale simple. Si cette case nest pas coche, une conguration initiale embote est utilise.
Critres : Vous pouvez spcier le nombre maximum ditrations que lanalyse canonique non
linaire peut prendre en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. Lanalyse interrompt son itration ds que la diffrence de lajustement total entre les deux dernires itrations est infrieure la valeur de la convergence, ou ds que le nombre maximum ditrations est atteint.
Spcier les paires de dimensions reprsenter, plutt que reprsenter toutes les dimensions extraites ( laide du mot-cl NDIM de la sous-commande PLOT). Indiquer le nombre de caractres composant les tiquettes de valeurs utiliss pour tiqueter des points sur les diagrammes (avec la sous-commande PLOT). Dsigner plus de cinq variables sous forme de variables dtiquettes pour les diagrammes de coordonnes des objets (avec la sous-commande PLOT). Slectionner les variables utilises dans lanalyse en tant que variables dtiquettes pour les diagrammes de coordonnes des objets (avec la sous-commande PLOT). Slectionner les variables fournir aux tiquettes de points pour le diagramme de coordonnes de quantication (avec la sous-commande PLOT). Indiquer le nombre dobservations inclure dans lanalyse si vous ne souhaitez pas utiliser toutes les observations dans lensemble de donnes actif (avec la sous-commande NOBSERVATIONS). Spcier les noms de racine des variables cres en enregistrant les coordonnes des objets (avec la sous-commande SAVE). Spcier le nombre de dimensions enregistrer, plutt que de sauvegarder toutes les dimensions extraites (avec la sous-commande SAVE). Ecrire les valeurs affectes aux modalits dans un chier de matrice (avec la sous-commande MATRIX). Produire des diagrammes faible rsolution pouvant tre plus faciles lire que des diagrammes haute rsolution (avec la sous-commande SET). Produire des diagrammes de barycentres et de transformations uniquement pour les variables spcies (avec la sous-commande PLOT).
Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.
Chapitre
Lune des fonctions de lanalyse des correspondances consiste dcrire les relations existant entre deux variables qualitatives dans un tableau de correspondances pour un espace comportant peu de dimensions, tout en dcrivant simultanment les relations entre les modalits de chaque variable. Pour chacune des variables, les distances sparant les points des modalits dun diagramme retent les relations existant entre ces modalits : plus les modalits sont similaires, plus elles sont proches les unes des autres. Les points de projection dune variable du vecteur situs entre lorigine et lun des points de modalit de lautre variable dcrivent les relations entre les deux variables. Une analyse des tableaux de contingence implique frquemment lexamen des prols des lignes et des colonnes ainsi quun test dindpendance au moyen de la statistique Khi-deux. Toutefois, le nombre de prols peut savrer assez lev et le test du Khi-deux nindique pas la structure des dpendances. La procdure Tableaux croiss offre plusieurs mesures dassociation et tests dassociation mais ne permet pas de reprsenter graphiquement les relations existant entre les variables. Lanalyse factorielle constitue une technique standard de description des relations entre les variables dun espace comportant peu de dimensions. Toutefois, lanalyse factorielle ncessite des donnes dintervalle et le nombre dobservations doit tre gal au nombre de variables multipli par cinq. Lanalyse des correspondances, en revanche, met en jeu des variables qualitatives et peut dcrire les relations entre les modalits de chaque variable, ainsi que les relations entre les variables. En outre, lanalyse des correspondances permet danalyser nimporte quel tableau de mesures de correspondances positives.
Exemple : Lanalyse des correspondances peut tre utilise pour reprsenter graphiquement les
relations existant entre la modalit socioprofessionnelle et le nombre de cigarettes consommes. Vous pourriez ainsi dterminer que la consommation de tabac diffre entre les jeunes cadres et les secrtaires, mais est similaire entre les secrtaires et les cadres suprieurs. Il vous serait galement possible de dduire que les grands fumeurs sont principalement de jeunes cadres, alors que les fumeurs occasionnels sont gnralement des secrtaires.
Diagrammes et statistiques : Mesures de correspondances, prols de lignes et de colonnes,
valeurs singulires, scores de lignes et de colonnes, inertie, masse, statistiques de conance des scores de lignes et de colonnes, statistiques de conance des valeurs singulires, diagrammes de transformation, diagrammes de point de ligne, diagrammes de point de colonne et diagrammes doubles.
Donnes : Les variables qualitatives analyser sont codes de faon nominale. Pour les donnes
agrges ou pour les mesures de correspondances autres que les effectifs, utilisez une variable de pondration prsentant des valeurs de similarit positives. Pour les donnes de tableau, utilisez la syntaxe pour lire le tableau.
Copyright SPSS Inc. 1989, 2010 50
de modalits de ligne et de colonne actives et du nombre de contraintes dgalit. Si aucune contrainte dgalit nest applique et que toutes les modalits sont actives, le nombre de dimensions maximal est infrieur de un au nombre de modalits de la variable prsentant le plus petit nombre de modalits. Par exemple, si lune des variables comporte cinq modalits et lautre quatre, le nombre maximal de dimensions sera de trois. Les modalits supplmentaires ne sont pas actives. Par exemple, si une variable comporte cinq modalits, dont deux supplmentaires, et que lautre variable possde quatre modalits, le nombre maximal de dimensions sera gal deux. Tous les groupes de modalits faisant lobjet dune contrainte dgalit doivent tre considrs comme une seule modalit. Ainsi, si une variable comporte cinq modalits, dont trois doivent tre gales, vous devrez considrer cette variable comme ne possdant que trois modalits pour dterminer le nombre maximal de dimensions. Deux de ces modalits sont non contraintes, et la troisime correspond aux trois modalits contraintes. Si vous dnissez un nombre de dimensions suprieur au nombre maximal autoris, la valeur maximale sera applique par dfaut.
Procdures apparentes : Si vous travaillez avec plus de deux variables, procdez une analyse de correspondance multiple. Si les variables doivent tre codes de faon ordinale, utilisez lanalyse des composantes principales qualitatives. Pour obtenir une analyse des correspondances
E A partir des menus, slectionnez : Analyse > Rduction des dimensions > Analyse des correspondances... Figure 5-1 Bote de dialogue Analyse des correspondances
E Slectionnez une variable de ligne. E Slectionnez une variable de colonne. E Dnir les plages des variables. E Cliquez sur OK.
52 Chapitre 5
A lorigine, toutes les modalits sont non contraintes et actives. Vous pouvez par la suite contraindre certaines modalits de ligne tre gales dautres modalits de ligne, ou dnir une modalit de ligne comme supplmentaire.
Les modalits doivent tre gales : Les modalits doivent prsenter des scores identiques.
Appliquez des contraintes dgalit si lordre obtenu pour les modalits nest pas souhaitable ou est contraire lintuition. Le nombre maximal de modalits de ligne pouvant faire lobjet dune contrainte dgalit correspond au nombre total de modalits de ligne actives moins 1. Pour imposer diffrentes contraintes dgalit aux groupes de modalits, utilisez la syntaxe. Par exemple, utilisez la syntaxe pour contraindre les modalits 1 et 2 tre gales, puis pour appliquer la mme contrainte aux modalits 3 et 4.
mais sont reprsentes dans lespace dni par les modalits actives. Les modalits supplmentaires ne jouent aucun rle dans la dnition des dimensions. Le nombre maximal de modalits de ligne supplmentaires correspond au nombre total de modalits de ligne moins 2.
53 Analyse des correspondances Figure 5-3 Bote de dialogue Dfinir lintervalle de la variable en colonne
A lorigine, toutes les modalits sont non contraintes et actives. Vous pouvez par la suite contraindre certaines modalits de colonne tre gales dautres modalits de colonne ou dnir une modalit de colonne comme supplmentaire.
Les modalits doivent tre gales : Les modalits doivent prsenter des scores identiques.
Appliquez des contraintes dgalit si lordre obtenu pour les modalits nest pas souhaitable ou est contraire lintuition. Le nombre maximal de modalits de colonne pouvant faire lobjet dune contrainte dgalit correspond au nombre total de modalits de colonne actives moins 1. Pour imposer diffrentes contraintes dgalit aux groupes de modalits, utilisez la syntaxe. Par exemple, utilisez la syntaxe pour contraindre les modalits 1 et 2 tre gales, puis pour appliquer la mme contrainte aux modalits 3 et 4.
mais sont reprsentes dans lespace dni par les modalits actives. Les modalits supplmentaires ne jouent aucun rle dans la dnition des dimensions. Le nombre maximal de modalits de colonne supplmentaires correspond au nombre total de modalits de colonne moins 2.
Dimensions de la solution : Spciez le nombre de dimensions. En gnral, choisissez autant de dimensions que ncessaires pour expliquer le maximum de la variation. Le nombre maximal de dimensions dpend du nombre de modalits actives utilis dans lanalyse et des contraintes dgalit. Le nombre maximal de dimensions est gal au plus petit dentre ces deux nombres :
Le nombre de modalits de ligne actives moins le nombre de modalits de ligne faisant lobjet dune contrainte dgalit, plus le nombre de groupes de modalits de ligne avec contrainte ; Le nombre de modalits de colonne actives moins le nombre de modalits de colonne faisant lobjet dune contrainte dgalit, plus le nombre de groupes de modalits de colonne avec contrainte.
Mesure de distance : Vous pouvez slectionner la mesure de la distance entre les lignes et les
Khi-deux : Utilisez une distance de prol pondre, la pondration correspondant la masse des
lignes ou des colonnes. Cette mesure est requise pour lanalyse des correspondances standard.
Euclidienne : Utilisez la racine carre de la somme des diffrences entre paires de lignes et
Moyennes de lignes et de colonnes limines : Les lignes et les colonnes sont centres. Cette
Les Totaux de lignes sont galiss et les moyennes limines : Les marges des lignes sont
Symtrique : Pour chaque dimension, les scores des lignes reprsentent la moyenne pondre
des scores des colonnes, divise par la valeur singulire correspondante ; les scores des colonnes reprsentent la moyenne pondre des scores des lignes, divise par la valeur singulire correspondante. Utilisez cette mthode si vous souhaitez examiner les diffrences ou les similitudes existant entre les modalits des deux variables.
Principale : Les distances entre les points des lignes et des colonnes sont des approximations
des distances du tableau des correspondances en fonction de la mesure de distance slectionne. Appliquez cette mthode si vous souhaitez examiner les diffrences existant entre les modalits de lune ou des deux variables, plutt que les diffrences entre ces deux variables.
Principale en ligne : Les distances entre les points des lignes sont des approximations des
distances du tableau des correspondances en fonction de la mesure de distance slectionne. Les scores des lignes correspondent la moyenne pondre des scores des colonnes. Utilisez cette mthode si vous souhaitez examiner les diffrences ou les similitudes existant entre les modalits de la variable de ligne.
Principale en colonne : Les distances entre les points des colonnes sont des approximations des
distances du tableau des correspondances en fonction de la mesure de distance slectionne. Les scores des colonnes correspondent la moyenne pondre des scores des lignes. Utilisez cette mthode si vous souhaitez examiner les diffrences ou les similitudes existant entre les modalits de la variable en colonne.
Personnalise : Vous devez dnir une valeur comprise entre 1 et 1. La valeur 1 correspond
la mthode de standardisation principale en colonne. La valeur 1 correspond la mthode de standardisation principale en ligne. La valeur 0 correspond la mthode de standardisation symtrique. Toutes les autres valeurs dispersent linertie sur les scores des lignes et des colonnes diffrents degrs. Cette mthode savre utile pour la cration de diagrammes doubles adapts vos besoins.
Tableau des correspondances : Tableau crois des variables dentre incluant les totaux marginaux
de ligne et de colonne.
Descriptives des points lignes : Pour chaque modalit de ligne, indique les scores, la masse,
linertie, la contribution du point linertie de la dimension ainsi que la contribution de la dimension linertie du point.
Descriptives des points colonnes : Pour chaque modalit de colonne, indique les scores, la masse,
linertie, la contribution du point linertie de la dimension ainsi que la contribution de la dimension linertie du point.
Profils lignes : Pour chaque modalit de ligne, indique la distribution entre les modalits de la variable en colonne. Profils colonnes : Pour chaque modalit de colonne, indique la distribution entre les modalits de
la variable en ligne.
Permutations du tableau des correspondances : Rorganisation du tableau des correspondances an que les lignes et les colonnes apparaissent dans lordre croissant en fonction des scores de la premire dimension. Une option vous permet de dnir le nombre maximal de dimensions pour lequel vous souhaitez crer des tableaux permuts. Un tableau permut sera alors gnr pour chaque dimension comprise entre 1 et le nombre dni par vous. Statistiques de confiance pour points lignes : Ecart type et corrlations de tous les points de ligne
non supplmentaires.
Statistiques de confiance pour points colonnes : Ecart type et corrlations de tous les points de
Diagrammes de dispersion : Gnre une matrice de tous les diagrammes prsentant les dimensions
Diagramme double : Cre une matrice des diagrammes joints reprsentant les points des lignes
et des colonnes. Si vous avez slectionn la mthode de standardisation principale, loption Diagramme double ne sera pas disponible.
Points lignes : Cre une matrice des diagrammes reprsentant les points des lignes. Points colonnes : Cre une matrice des diagrammes reprsentant les points des colonnes.
Une option vous permet de dnir le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage des points. Cette valeur doit tre un nombre entier positif infrieur ou gal 20.
Courbes. Cre un diagramme pour chaque dimension de la variable slectionne. Les courbes
Modalits de lignes transformes : Produit un diagramme reprsentant les valeurs des modalits
de ligne dorigine par rapport aux scores des lignes qui leur correspondent.
Modalits de colonnes transformes : Produit un diagramme reprsentant les valeurs des
modalits de colonne dorigine par rapport aux scores des colonnes qui leur correspondent.
58 Chapitre 5
Une option vous permet de dnir le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage de laxe des modalits. Cette valeur doit tre un nombre entier positif infrieur ou gal 20.
Dimensions du diagramme. Permet de contrler les dimensions contenues dans le rsultat.
Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solution
dimensions reprsentes. Si vous restreignez ces dimensions, vous devez slectionner la plus petite et la plus grande tracer. La plus petite dimension peut tre comprise entre 1 et le nombre de dimensions contenues dans la solution moins 1. En outre, elle est reprsente par rapport aux dimensions plus grandes. La valeur de dimension la plus leve peut tre comprise entre 2 et le nombre de dimensions contenues dans la solution. Par ailleurs, elle indique la plus grande dimension utiliser pour le traage des paires de dimensions. Cette spcication sapplique lensemble des reprsentations multidimensionnelles demandes.
Indiquer les donnes des tableaux comme entres au lieu dutiliser les donnes dobservation (au moyen de la sous-commande TABLE = ALL). Spcier le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage des points de chaque type de matrice de diagramme de dispersion ou de diagramme double (au moyen de la sous-commande PLOT). Indiquer le nombre de caractres composant les tiquettes de valeurs utilises pour ltiquetage des points de chaque type de courbe (au moyen de la sous-commande PLOT). Crer une matrice des scores des lignes et des colonnes dans un chier de donnes de matrice (avec la sous-commande OUTFILE). Crer une matrice des statistiques de conance (variances et covariances) pour les valeurs singulires et les scores dans un chier de donnes de matrice (avec la sous-commande OUTFILE). Appliquer une contrainte dgalit plusieurs groupes de modalits (au moyen de la sous-commande EQUAL).
Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.
Chapitre
Lanalyse de correspondance multiple quantie les donnes (qualitatives) nominales en attribuant des valeurs numriques aux observations (objets) et aux modalits, pour que les objets faisant partie de la mme modalit soient proches les uns des autres et ceux de diffrentes modalits, loigns les uns des autres. Chaque objet se trouve aussi prs que possible des points de modalit qui sappliquent. Ainsi, les modalits divisent les objets en sous-groupes homognes. Les variables sont considres comme homognes lorsquelles classent les objets des mmes modalits dans les mmes sous-groupes.
Exemple : Lanalyse de correspondance multiple peut tre utilise pour afcher graphiquement la
relation entre la modalit demploi, la classication des minorits et le sexe. Vous pouvez trouver que la classication par minorits et le sexe sont discriminant pour les personnes, mais que la modalit demploi ne lest pas. Vous avez galement la possibilit de constater que les modalits Latino et Afro-Amricaines sont similaires les unes des autres.
Diagrammes et statistiques. Coordonnes des objets, mesures de discrimination, historique des
itrations, corrlations des variables dorigine et des variables transformes, quantications des modalits, statistiques descriptives, diagrammes de points des objets, diagrammes doubles, diagrammes de modalits, diagrammes de modalits joints, diagrammes de transformation et diagrammes de mesures de discrimination.
Donnes. Les variables chane sont toujours converties en nombres entiers positifs par ordre
croissant alphanumrique. Les valeurs manquantes dnies par lutilisateur, les valeurs manquantes par dfaut et les valeurs infrieures 1 sont considres comme manquantes ; vous pouvez donc recoder ou ajouter une constante aux variables contenant des valeurs infrieures 1 pour les dnir comme non manquantes.
Hypothses : Toutes les variables contiennent le niveau de codage nominal multiple. Les donnes
doivent contenir au moins trois observations valides. Lanalyse repose sur des donnes sous forme de nombres entiers positifs. Loption de discrtisation classe automatiquement une variable fractionne en regroupant ses valeurs en modalits avec une distribution quasi normale et convertit automatiquement les valeurs des variables chane en nombre entiers positifs. Vous pouvez en outre, spcier dautres schmas de discrtisation.
Procdures apparentes : Pour deux variables, lanalyse de correspondance multiple est identique
lanalyse des correspondances. Si vous pensez que ces variables possdent des proprits ordinales ou numriques, vous devez utiliser lanalyse des composantes principales qualitatives. Si des groupes de variables sont intressants, vous devez utiliser une analyse des corrlations canoniques (non linaires).
59
60 Chapitre 6
E Slectionnez Toutes les variables nominales multiples. E Slectionnez Un groupe. E Cliquez sur Dfinir.
61 Analyse de correspondance multiple Figure 6-2 Bote de dialogue Analyse des correspondances multiples
solution.
E Cliquez sur OK.
Vous pouvez peut-tre spcier des variables supplmentaires qui sont ajustes la solution trouve, ou des variables dtiquettes pour les diagrammes.
Pondration de la variable : Vous pouvez choisir une pondration pour chaque variable. La valeur
spcie doit tre un nombre entier positif. La valeur par dfaut est 1.
62 Chapitre 6
Regroupement : Recodez en un nombre spci de modalits ou par intervalle. Rang : La variable est discrtise via le classement des observations. Multiplier : Les valeurs courantes de la variable sont standardises, multiplies par 10 et
arrondies, et possdent une constante ajoute de sorte que la valeur discrtise la plus faible soit gale 1.
Regroupement : Les options suivantes sont disponibles lorsque vous discrtisez des variables
par groupe :
variable doivent faire lobjet dune distribution approximativement gaussienne ou uniforme entre ces modalits.
Intervalles gaux : Les variables sont recodes en modalits dnies par ces intervalles de
Stratgie de la valeur manquante. Choisissez dexclure les valeurs manquantes (traitement passif),
daffecter des valeurs (traitement actif) ou dexclure les objets contenant des valeurs manquantes (suppression des observations incompltes).
Exclure les valeurs manquantes pour affectation de corrlations aprs quantification. Les objets
contenant des valeurs manquantes sur la variable slectionne ne contribuent pas lanalyse de cette variable. Si un traitement passif est effectu sur toutes les variables, les objets dont les variables comportent des valeurs manquantes sont traits comme tant supplmentaires. Si les corrlations sont spcies dans la bote de dialogue Rsultat, les valeurs manquantes aprs analyse sont alors prises en compte avec la modalit la plus frquente ou le mode de la variable pour les corrlations des variables dorigine. Pour corrler des variables codes de faon optimale, vous devez choisir une mthode dimputation. Slectionnez Mode pour remplacer les valeurs manquantes par le mode de la variable code de faon optimale. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une
64 Chapitre 6
modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).
Inclure les valeurs manquantes. Des valeurs sont prises en compte pour les objets contenant
des valeurs manquantes sur la variable slectionne. Vous pouvez choisir la mthode de calcul : Slectionnez Mode pour remplacer les valeurs manquantes par la modalit la plus frquente. Sil existe plusieurs modes, utilisez celui dont lindicateur de modalits est le plus petit. Slectionnez Modalit supplmentaire pour remplacer les valeurs manquantes par la valeur affecte une modalit supplmentaire. Cela suppose que les objets contenant une valeur manquante pour cette variable sont considrs comme appartenant la mme modalit (supplmentaire).
Exclure les objets contenant des valeurs manquantes sur cette variable. Les objets contenant des
valeurs manquantes dans la variable slectionne sont retirs de lanalyse. Cette option nest pas disponible pour les variables supplmentaires.
dernier numros dobservation dune plage dobjets) que vous souhaitez dnir comme objet supplmentaire, puis cliquez sur Ajouter. Poursuivez jusqu ce que vous ayez indiqu tous les objets supplmentaires. Si un objet est spci comme supplmentaire, alors les pondrations dobservation est ignore pour cet objet.
Mthode de standardisation : Vous pouvez spcier lune des cinq options de standardisation des
coordonnes des objets et des variables. Une seule mthode de standardisation peut tre utilise dans une analyse donne.
Variable principale : Cette option optimise lassociation entre les variables. Les coordonnes
des variables dans lespace objet correspondent aux corrlations entre composants et variables initiales (corrlations comportant des composantes principales telles que des dimensions et des coordonnes dobjets). Cela est utile si vous tes avant tout intress par les corrlations entre variables.
Objet principal : Cette option optimise les distances entre les objets. Cela est utile si vous tes
66 Chapitre 6
Indpendant : Utilisez cette option de standardisation si vous souhaitez examiner les distances
entre les objets ainsi que les corrlations entre variables sparment.
Personnalise : Vous pouvez spcier toute valeur relle comprise dans lintervalle [1, 1].
Une valeur de 1 correspond la mthode Objet principal, une valeur de 0 correspond la mthode Symtrique, et une valeur de 1 la mthode Variable principale. En spciant une valeur comprise entre 1 et 1, la valeur propre peut comprendre la fois les objets et les variables. Cette mthode est utile pour effectuer des diagrammes doubles ou triples.
Critres : Vous pouvez spcier le nombre maximum ditrations que la procdure peut prendre
en charge dans ses calculs. Vous avez galement la possibilit de slectionner une valeur de critre de convergence. Lalgorithme interrompt son itration ds que la diffrence du total ajust entre les deux dernires itrations est infrieur la valeur de la convergence ou ds que le nombre maximum ditrations est atteint.
Etiqueter les diagrammes par : Vous permet de prciser si les tiquettes de variable et de valeurs
ou les noms ou valeurs de variables sont utiliss dans les diagrammes. Vous pouvez galement spcier une longueur maximale pour les tiquettes.
Dimensions du diagramme. Permet de contrler les dimensions contenues dans le rsultat.
Afficher toutes les dimensions dans la solution. Toutes les dimensions de la solution
dimensions reprsentes. Si vous restreignez ces dimensions, vous devez slectionner la plus petite et la plus grande tracer. La plus petite dimension peut tre comprise entre 1 et le nombre de dimensions contenues dans la solution moins 1. En outre, elle est reprsente par rapport aux dimensions plus grandes. La valeur de dimension la plus leve peut tre comprise entre 2 et le nombre de dimensions contenues dans la solution. Par ailleurs, elle indique la plus grande dimension utiliser pour le traage des paires de dimensions. Cette spcication sapplique lensemble des reprsentations multidimensionnelles demandes.
Configuration : Vous pouvez lire les donnes dun chier contenant les coordonnes de la conguration. La premire variable du chier doit contenir les coordonnes de la premire dimension, la deuxime variable, celles de la deuxime dimension, et ainsi de suite.
Initiale : La conguration du chier spci sera utilise comme point de dpart de lanalyse. Fixe : La conguration du chier spci sera utilise pour ajuster les variables. Les variables
ainsi ajustes doivent tre slectionnes comme des variables danalyse, mais la conguration tant xe, elles doivent tre considres comme des variables supplmentaires (il est donc inutile de les slectionner comme telles).
Coordonnes des objets : Afche les coordonnes des objets, y compris la masse, linertie et les
Inclure les modalits de : Prsente les indicateurs de modalits des variables danalyse
slectionnes.
Etiqueter les objets du diagramme par : Vous pouvez slectionner lune des variables spcies
transformes (codes de faon optimale) ainsi que les valeurs propres de cette matrice.
Valeurs affectes aux modalits et contributions. Indique les valeurs affectes aux modalits
(coordonnes), y compris la masse, linertie et les contributions pour chaque dimension de la ou des variables slectionnes.
68 Chapitre 6
Remarque : les coordonnes et les contributions (dont la masse et linertie) sont afches dans des strates distinctes des rsultats du tableau pivotant, les coordonnes tant afches par dfaut. Pour afcher les contributions, double-cliquez sur le tableau et slectionnez Contributions dans la liste droulante Strate.
Statistiques descriptives : Afche les effectifs, le nombre de valeurs manquantes et le mode
Les ensembles de donnes sont disponibles lors de la session en cours mais ne sont pas disponibles lors des sessions suivantes, sauf si vous les enregistrez clairement comme chiers de donnes. Les noms des ensembles de donnes doivent tre conformes aux rgles de dnomination de variables. Les noms de chiers ou les noms de lensemble de donnes doivent tre diffrents pour chaque type de donnes enregistres. Si vous enregistrez les coordonnes des objets ou les valeurs transformes dans lensemble de donnes actif, vous pouvez indiquer le nombre des dimensions nominales multiples.
Points des objets. Un diagramme des points des objets safche. Objets et barycentres (diagrammes doubles) : Les points des objets sont reprsents avec les
barycentres de variable.
Variables de diagramme double. Vous pouvez choisir dutiliser toutes les variables des diagrammes
slectionnes (choisissez les valeurs des indicateurs de modalits ou les tiquettes de valeurs dans la bote de dialogue Options) ou avec le nombre dobservations. Si vous avez slectionn Variables, un seul diagramme est cr par variable.
Diagrammes de modalits : Pour chaque variable slectionne, un diagramme des coordonnes du barycentre est reprsent. Les modalits se trouvent dans les barycentres des objets des modalits concernes. Joindre les diagrammes de modalits : Il sagit dun diagramme simple reprsentant les
optimales contre les indicateurs de modalits. Vous pouvez spcier le nombre de dimensions souhait. Un diagramme sera cr pour chaque dimension. Il vous est galement possible de choisir dafcher des diagrammes rsiduels pour chaque variable slectionne.
Mesures de discrimination. Cre un diagramme des mesures de discrimination pour les variables
slectionnes.
Spciez les noms de racine des variables transformes, les coordonnes des objets et les approximations lorsque vous les enregistrez dans lensemble de donnes actif (avec la sous-commande SAVE). Spcier la longueur maximale pour les tiquettes de chaque diagramme sparment (avec la sous-commande PLOT). Spcier une liste de variables distincte pour les diagrammes rsiduels (avec la sous-commande PLOT).
Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.
Chapitre
Le positionnement multidimensionnel tente de dterminer la structure dun groupe de mesures de proximit entre les objets. Ce procd est effectu en affectant des observations des positions particulires dans un espace conceptuel de petite dimension de telle sorte que les distances entre les points dans lespace correspondent le mieux possible aux (dis)similarits donnes. Le rsultat est une reprsentation moindres carrs des objets dans cet espace de petite dimension, qui vous aidera, dans certains cas, mieux comprendre vos donnes.
Exemple : Le positionnement multidimensionnel peut tre trs utile pour dterminer les relations
perceptuelles. Par exemple, en considrant limage de votre produit, vous pouvez mener une enqute en vue dobtenir un chier de donnes dcrivant la similarit distingue (ou proximit) de votre produit compare celle de vos concurrents. En utilisant ces variables de proximit et indpendantes (un prix, par exemple), vous pouvez essayer de dterminer quelles variables sont importantes suivant le mode dafchage de ces produits et vous pouvez ajuster votre image en fonction.
Diagrammes et statistiques : Historique des itrations, mesures de stress, dcomposition du stress, coordonnes de lespace commun, distances des objets dans la conguration nale, pondrations des espaces individuels, espaces individuels, proximits transformes, variables indpendantes transformes, diagrammes de stress, diagrammes de dispersion des espaces communs, diagrammes de dispersion de pondration des espaces individuels, diagrammes de dispersion des espaces individuels, diagrammes de transformation, diagrammes rsiduels de Shepard et diagrammes de transformation des variables explicatives. Donnes : Les donnes peuvent tre indiques dans le formulaire des matrices de proximit ou des variables qui sont converties en matrice de proximit. Les matrices peuvent tre formates en colonnes ou entre les colonnes. Les proximits peuvent tre traites par niveaux de codage rapport, intervalle, ordinal ou spline. Hypothses : Trois variables au moins doivent tre spcies. Le nombre de dimensions ne doit
pas dpasser le nombre dobjets moins un. La rduction du nombre de dimensions est omise si elle est combine aux dparts alatoires multiples. Si vous indiquez une source seulement, tous les modles quivalent au modle didentit, puis lanalyse slectionne par dfaut le modle didentit.
Procdures apparentes : Le codage de toutes les variables un niveau numrique correspond au positionnement multidimensionnel standard.
72
Format des donnes : Indiquez si vos donnes constituent des mesures de proximit ou si vous souhaitez crer des proximits partir des donnes. Nombre de sources : Si vos donnes sont des proximits, spciez si vous avez des sources uniques
avec les proximits dune matrice sur des colonnes ou sur une colonne unique avec deux variables spares pour identier les lignes et colonnes de chaque proximit.
Les proximits sont dans une matrices dans des colonnes. La matrice de proximit stend
des colonnes dont le nombre est gal au nombre dobjets. Vous accdez ensuite la bote de dialogue Proximits sur plusieurs colonnes de matrices.
Les proximits sont dans une seule colonne. Les matrices de proximit sont rduites dans une
seule colonne, ou variable. Deux variables supplmentaires identiant la ligne et la colonne de chaque cellule sont ncessaires. Vous accdez ensuite la bote de dialogue Proximits sur une seule colonne.
Plusieurs sources : Sil existe plusieurs sources de proximits, spciez si le chier de donnes
est format avec les proximits des matrices empiles sur plusieurs colonnes, sur des colonnes multiples contenant une source par colonne ou sur une colonne simple.
74 Chapitre 7
Les proximits sont dans des matrices empiles dans des colonnes. Les matrices de proximit
stalent sur un nombre de colonnes quivalent au nombre dobjets et sont empiles les unes sur les autres sur un nombre de lignes quivalent au produit du nombre dobjets et du nombre de sources. Vous accdez ensuite la bote de dialogue Proximits sur plusieurs colonnes de matrices.
Les proximits sont dans des colonnes, une source par colonne. Les matrices de proximit sont
rduites dans plusieurs colonnes, ou variables. Deux variables supplmentaires identiant la ligne et la colonne de chaque cellule sont ncessaires. Vous accdez ensuite la bote de dialogue Proximits sur des colonnes.
Les proximits sont empiles dans une seule colonne. Les matrices de proximit sont rduites
dans une seule colonne, ou variable. Trois variables supplmentaires identiant la ligne, la colonne et la source de chaque cellule, sont ncessaires. Vous accdez ensuite la bote de dialogue Proximits sur une seule colonne.
E Cliquez sur Dfinir.
E Slectionnez deux ou plusieurs variables de proximit. (Veuillez vous assurer que lordre des
de proximit. (Veuillez vous assurer que lordre des pondrations correspond celui des proximits quelles pondrent.)
75 Positionnement multidimensionnel (PROXSCAL) E Sil existe plusieurs sources, vous pouvez galement slectionner une variable de sources. (Le
nombre dobservations dans chaque variable de proximit doit tre gal au nombre de variables de proximit multipli par le nombre de sources.) De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.
E Slectionnez deux ou plusieurs variables. (Chaque variable est considre comme tant une
dans la variable des proximits. (Les cellules de la matrice de proximit nayant pas de dsignation lignes/colonnes sont considres comme manquantes.)
E Slectionnez ventuellement un nombre de variables de pondration gal au nombre des variables
de proximit. De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.
76 Chapitre 7
E Slectionnez une variable de proximit. (On considre quil existe une ou plusieurs matrices
des proximits.)
E Slectionnez une variable de lignes pour dnir les positions de lignes pour les proximits dans
cellules de la matrice de proximit nayant pas de dsignation lignes/colonnes sont considres comme manquantes.)
E Eventuellement, choisissez une variable de pondration.
De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.
E Si vous crez des distances entre les variables (voir la bote de dialogue Crer une mesure partir
des donnes), slectionnez au moins trois variables. Ces variables seront utilises pour crer la matrice de proximit (ou les matrices, sil existe plusieurs sources). Si vous crez des distances entre les observations, seule une variable est requise.
E Sil existe plusieurs sources, slectionnez une variable de sources. E Choisissez ventuellement une mesure de cration de proximits.
De plus, vous pouvez dnir un modle pour un positionnement multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.
78 Chapitre 7
Le positionnement multidimensionnel utilise les donnes de dissimilarit pour crer une solution de codage. Si vos donnes sont multivaries (valeurs des variables mesures), vous devez crer des donnes de dissimilarit an de calculer une solution de positionnement multidimensionnel. Vous pouvez spcier les dtails de cration de mesures de dissimilarit partir de vos donnes.
Mesure : Vous permet de spcier la mesure de dissimilarit adapte votre analyse. Slectionnez
une possibilit dans le groupe Mesure correspondant votre type de donnes, puis slectionnez lune des mesures dans la liste droulante correspondant ce type de mesure. Les possibilits sont :
chelles trs diffrentes, vous voudrez standardiser des valeurs avant de calculer les proximits (ne sapplique pas aux donnes binaires). Slectionnez une mthode de standardisation dans la liste droulante Standardiser (si la standardisation nest pas ncessaire, slectionnez Aucune).
Identit : Toutes les sources ont la mme conguration. Euclidien pondr : Ce modle est un modle des diffrences individuelles. Chaque source
comporte un espace individuel dans lequel chaque dimension de lespace commun est pondre de faon diffrentielle.
Euclidien gnralis : Ce modle est un modle des diffrences individuelles. Chaque source
comporte un espace individuel qui est gal une rotation de lespace commun, suivie dune pondration diffrencie des dimensions.
Rang rduit : Il sagit dun modle euclidien gnralis pour lequel vous pouvez spcier le
rang de lespace individuel. Vous devez spcier un rang suprieur ou gal 1 et infrieur au nombre maximum de dimensions.
Forme : Spciez si les proximits doivent tre extraites des parties triangulaires infrieure ou
suprieure de la matrice de proximit. Vous pouvez indiquer que la totalit de la matrice est utilise, auquel cas la somme pondre des parties triangulaires suprieure et infrieure sera analyse. Dans tous les cas, la matrice complte doit tre spcie, y compris la diagonale, mme si les parties spcies seront les seules tre utilises.
80 Chapitre 7
dissimilarit.
Transformations de proximit : Choisissez parmi les options suivantes :
une constante. Cette constante fait en sorte que les proximits transformes soient positives.
Ordinal : Les proximits transformes ont le mme ordre que les originales. Vous spciez si
les proximits lies doivent tre gardes lies ou autorises ne plus ltre.
Spline. Les proximits transformes reprsentent une transformation polynomiale non
dcroissante lisse des proximits originales. Vous spciez le degr de la fonction polynomiale ainsi que le nombre de points critiques.
Appliquer les transformations : Spciez si seules les proximits de chaque source sont compares
Pas de restrictions : Aucune restriction nest place sur lespace commun. Certaines coordonnes fixes : La premire variable slectionne contient les coordonnes des
objets sur la premire dimension ; la seconde correspond aux coordonnes des objets sur la deuxime dimension, et ainsi de suite. Une valeur manquante indique quune coordonne sur une dimension est libre. Le nombre de variables slectionnes doit tre gal au nombre maximum de dimensions requis.
commun. Si vous spciez une combinaison linaire, vous spciez une transformation dintervalle, nominale, ordinale ou spline pour des variables de restriction. Dans tous les cas, le nombre dobservations pour chaque variable doit tre gal au nombre dobjets.
Simplex . Les objets sont placs la mme distance les uns des autres dans la dimension
maximale. Une itration est prise pour amliorer cette conguration haute dimension, suivie dune rduction de dimension en vue dobtenir une conguration initiale comportant le nombre maximum de dimensions spci dans la bote de dialogue Modle.
Torgerson : Une solution de codage classique est utilise comme conguration initiale. Dpart alatoire unique : Une conguration est choisie de faon alatoire. Dparts alatoires multiples : Plusieurs congurations sont choisies de faon alatoire, et celle
ayant le stress brut le moins standardis est utilise comme conguration initiale.
Personnalis : Vous slectionnez les variables contenant les coordonnes de votre conguration
initiale. Le nombre de variables slectionnes doit tre gal au nombre de dimensions spci, la premire variable correspondant aux coordonnes sur la dimension 1, la seconde correspondant aux coordonnes sur la dimension 2, etc. Le nombre dobservations dans chaque variable doit tre gal au nombre dobjets.
Critres ditration : Spciez les valeurs des critres ditration.
Convergence du stress : Lalgorithme interrompt son itration lorsque la diffrence des valeurs
du stress brut standardis conscutif est infrieure au nombre spci ici, lequel doit tre compris entre 0,0 et 1,0.
Stress minimum : Lalgorithme sinterrompt lorsque le stress brut standardis tombe en dessous
du nombre spci ici, lequel doit tre compris entre 0,0 et 1,0.
utilises ni avec les modles autres que le modle didentit, ni avec des restrictions.
Stress : Un diagramme est produit partir du stress brut standardis par opposition aux
dimensions. Ce diagramme est uniquement gnr si le nombre maximum de dimensions est suprieur au nombre minimum.
Espace commun : Une matrice de diagramme de dispersion des coordonnes de lespace commun
est afch.
Espaces individuels : Pour chaque source, les coordonnes des espaces individuels sont afches
dans les matrices de diagramme de dispersion. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle.
84 Chapitre 7
Pondrations des espaces individuels : Un diagramme de dispersion est produit partir des pondrations des espaces individuels. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle. Pour le modle Euclidien pondr, les pondrations sont imprimes dans des diagrammes dont une dimension sur chaque axe. Pour le modle Euclidien gnralis, un diagramme est produit par dimension, indiquant la fois la rotation et sa pondration. Le modle Rang rduit gnre le mme diagramme que le modle Euclidien gnralis, mais rduit le nombre de dimensions des espaces individuels. Proximits originales contre transformes : Les diagrammes sont gnrs partir des proximits originales par opposition aux proximits transformes. Proximits et distances transformes. Les proximits et distances transformes sont reprsentes
Coordonnes de lespace commun : Afche les coordonnes de lespace commun. Coordonnes de lespace individuel : Les coordonnes de lespace individuel sont afches
uniquement si lun des modles de diffrences individuelles est spci. En fonction du modle, les pondrations des espaces sont dcomposes en pondrations de rotation et de dimension, lesquelles sont galement afches.
Distances : Afche les distances entre les objets de la conguration. Transformations transformes : Afche les proximits transformes entre les objets de la
conguration.
Donnes de saisie : Inclut les proximits originales, et si elles existent, les pondrations de
86 Chapitre 7
Mesures de stress multiples : Afche les diffrentes valeurs de stress. Le tableau contient
des valeurs pour le stress brut standardis, le stress-I, le stress-II, le stress-S, la dispersion reprsente (DAF) et enn le coefcient de congruence de Tucker.
Dcomposition du stress : Afche la dcomposition par objet et par source du stress brut nal
slectionne, les variables indpendantes transformes et les pondrations de rgression correspondantes sont afches.
slectionne, les corrlations entre les variables indpendantes et les dimensions de lespace commun sont afches.
Enregistrer dans nouveau fichier : Vous pouvez enregistrer les coordonnes de lespace commun,
les pondrations des espaces individuels, les distances, les proximits transformes et les variables indpendantes transformes pour sparer les chiers de donnes IBM SPSS Statistics.
Spcier des listes de variables distinctes pour les diagrammes de transformation et rsiduels (avec la sous-commande PLOT). Spcier des listes de sources distinctes pour les diagrammes de pondration des espaces individuels, de transformation et rsiduels (avec la sous-commande PLOT). Spcier un sous-groupe des diagrammes de transformation de variables indpendantes afcher (avec la sous-commande PLOT).
Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.
Chapitre
La procdure de dpliage multidimensionnel tente de trouver une chelle quantitative commune vous permettant dexaminer les relations entre deux ensembles dobjets de manire visuelle.
Exemples : Vous demandez 21 personnes de classer 15 aliments constituant un petit-djeuner selon leurs prfrences, de 1 15. Le dpliage multidimensionnel vous permet de dterminer que la logique discriminatoire des individus suit deux schmas primaires : entre les pains mous et les pains durs et entre les aliments gras et allgs.
Autre exemple : vous demandez un groupe de conducteurs de noter 26 modles de voitures sur 10 critres selon une chelle de 6 points, allant de 1= pas vrai du tout 6= tout fait vrai . En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine similarit des valeurs. Le dpliage multidimensionnel vous permet cependant de distinguer des regroupements de modles similaires et les critres avec lesquels ils sont le plus souvent associs.
Diagrammes et statistiques : La procdure de dpliage multidimensionnel permet de produire un historique des itrations, les mesures de stress, la dcomposition du stress, les coordonnes de lespace commun, les distances des objets dans la conguration nale, les pondrations des espaces individuels, les espaces individuels, les proximits transformes, les diagrammes de stress, les diagrammes de dispersion des espaces communs, les diagrammes de dispersion de pondration des espaces individuels, les diagrammes de dispersion des espaces individuels, les diagrammes de transformation et les diagrammes rsiduels de Shepard. Donnes : Les donnes sont fournies sous forme de matrices de proximit rectangulaires. Chaque
colonne est considre comme un objet de colonne distinct. Chaque ligne dune matrice de proximit est considre comme un objet de ligne distinct. Lorsquil existe plusieurs sources de proximits, les matrices sont empiles.
Hypothses : Deux variables au moins doivent tre spcies. Le nombre de dimensions de
la solution ne doit pas dpasser le nombre dobjets moins un. Si vous indiquez une source seulement, tous les modles quivalent au modle didentit, puis lanalyse slectionne par dfaut le modle didentit.
Obtenir un dpliage multidimensionnel
E A partir des menus, slectionnez : Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)... Copyright SPSS Inc. 1989, 2010 87
E Slectionnez deux variables ou plus identiant les colonnes dans la matrice de proximit
dobjets de colonnes. Lordre des variables de pondration doit tre le mme que celui des objets de colonnes quelles pondrent.
E Eventuellement, choisissez une variable de ligne. Les valeurs (ou tiquettes de valeur) de cette
dobservations dans chaque chier de donnes doit tre gal au nombre dobjets de lignes multipli par le nombre de sources. De plus, vous pouvez dnir un modle pour un dpliage multidimensionnel, placer les restrictions dans lespace commun, dnir les critres de convergence, spcier la conguration initiale utiliser et enn, choisir des diagrammes et des rsultats.
Identit : Toutes les sources ont la mme conguration. Euclidien pondr : Ce modle est un modle des diffrences individuelles. Chaque source
comporte un espace individuel dans lequel chaque dimension de lespace commun est pondre de faon diffrentielle.
Euclidien gnralis : Ce modle est un modle des diffrences individuelles. Chaque source
comporte un espace individuel qui est gal une rotation de lespace commun, suivie dune pondration diffrencie des dimensions.
Proximits : Spciez si votre matrice de proximit contient des mesures de similarit ou de
dissimilarit.
Dimensions : Par dfaut, une solution est calcule dans deux dimensions (minimum =2,
maximum =2). Vous pouvez choisir un entier minimum et maximum depuis 1 jusquau nombre dobjets moins 1, tant que le minimum reste infrieur ou gal au maximum. La procdure calcule une solution des dimensions maximales, puis rduit le nombre de dimensions en matire dtapes, jusqu ce que la plus petite soit atteinte.
Transformations de proximit : Choisissez parmi les options suivantes :
Aucune. Les proximits ne sont pas transformes. Vous pouvez ventuellement slectionner
Inclure une constante an de dcaler les proximits dune constante dnie.
90 Chapitre 8
fonction de transformation estime une pente et la constante est dnie sur 0. Cest ce quon appelle une transformation de ratio. Vous pouvez ventuellement slectionner Inclure une constante an de dcaler les proximits dune constante dnie. Ce procd est galement appel transformation dintervalle.
dcroissante lisse des proximits originales. Vous spciez le degr de la fonction polynomiale ainsi que le nombre de points critiques. Vous pouvez ventuellement slectionner Inclure une constante an de dcaler les proximits dune constante dnie.
Liss. Les proximits transformes prsentent le mme ordre que les proximits dorigine, y
compris la restriction qui prend en compte les diffrences entre les valeurs successives. Il en rsulte une transformation ordinale lisse . Vous pouvez spcier si les proximits lies doivent tre gardes lies ou autorises ne plus ltre.
Ordinal : Les proximits transformes ont le mme ordre que les originales. Vous pouvez
spcier si les proximits lies doivent tre gardes lies ou autorises ne plus ltre.
Appliquer les transformations : Spciez si les proximits sont compares lune lautre dans
chaque ligne ou dans chaque source ou si les comparaisons sont sans condition sur la ligne ou sur la source, cest dire si les transformations sont effectues par ligne, par source ou sur toutes les proximits en une fois.
Restrictions sur lespace commun : Vous pouvez choisir de xer les coordonnes des objets de
Classique. La matrice de proximit rectangulaire est utilise pour complter les valeurs
intrablocs (valeurs entre les lignes et entre les colonnes) de la matrice MDS symtrique complte. Une fois la matrice complte forme, une solution de positionnement classique est utilise pour la conguration initiale. Les valeurs intrablocs peuvent tre calcules laide de lingalit triangulaire ou des distances de Spearman.
singulire sur une matrice de proximit double centre carre comme valeurs initiales pour les objets de lignes et de colonnes.
correspondance sur les donnes inverses (similitudes au lieu des diffrences) avec une normalisation symtrique des carts des lignes et des colonnes.
conguration laide de la dcomposition de la valeur propre. Les objets de colonnes sont ensuite positionns dans le barycentre des choix spcis. Pour le nombre de choix, spciez un entier positif entre 1 et le nombre de variables de proximit.
Dparts alatoires multiples : Les solutions sont calcules pour plusieurs congurations
initiales slectionnes de manire alatoire et celle prsentant la mesure de stress pnalise la plus basse reprsente la meilleure.
conguration initiale. Le nombre de variables slectionnes doit tre gal au nombre de dimensions spci, la premire variable correspondant aux coordonnes sur la dimension 1, la seconde correspondant aux coordonnes sur la dimension 2, etc. Le nombre dobservations dans chaque variable doit tre gal au nombre combin dobjets de lignes et de colonnes. Les coordonnes des lignes et des colonnes doivent tre empiles, avec les coordonnes des colonnes la suite des coordonnes des lignes.
Critres ditration : Spciez les valeurs des critres ditration.
des valeurs des mesures de stress pnalis conscutives est infrieure au nombre spci ici, lequel ne peut pas tre ngatif.
Stress minimum : Lalgorithme sarrte lorsque la mesure de stress pnalis est infrieure au
Intensit. Plus la valeur du paramtre dintensit est petite, plus la pnalit est intense.
dnissez sur 0,0, la pnalit est inactive. Laugmentation de la valeur entrane la recherche par lalgorithme dune solution prsentant une plus grande variation parmis les proximits transformes. Spciez une valeur non ngative.
fonction des dimensions. Ce diagramme est uniquement gnr si le nombre maximum de dimensions est suprieur au nombre minimum.
Espace commun final. Une matrice de diagramme de dispersion des coordonnes de lespace
des espaces individuels. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle. Pour le modle Euclidien pondr, les pondrations de toutes les sources sont afches dans un diagramme avec une dimension sur chaque axe. Pour le modle Euclidien gnralis, un diagramme est produit par dimension, indiquant la fois la rotation et sa pondration pour chaque source.
individuel de chaque source est afche. Cela est uniquement possible si lun des modles de diffrences individuels est spci dans la bote de dialogue Modle.
proximits dorigine par opposition aux proximits transformes. Selon lapplication des transformations, une couleur distincte est assigne chaque ligne ou source. Une transformation inconditionnelle gnre une seule couleur.
des distances. Les distances sont reprsentes par des points et les proximits transformes par une ligne. Selon lapplication des transformations, une ligne distincte est gnre pour chaque ligne ou source. Une transformation inconditionnelle gnre une seule ligne.
transformes en fonction des distances est afch. Une couleur distincte est assigne chaque source lorsque plusieurs sources sont spcies.
des rsidus (proximits transformes moins les distances) est afch. Une couleur distincte est assigne chaque source lorsque plusieurs sources sont spcies.
Styles dobjets de lignes. Les styles vous apportent un contrle supplmentaire pour lafchage
des objets de lignes dans les diagrammes. Les valeurs des variables de couleurs facultatives sont utilises pour passer en revue toutes les couleurs. Les valeurs des variables de marques facultatives sont utilises pour passer en revue toutes les marques possibles.
Diagrammes sources. Pour les espaces individuels, diagrammes de dispersion de lajustement et
Diagrammes des rsidus, ainsi que pour les diagrammes de transformations et diagrammes de Shepard, si les transformations sont appliques par la source, vous pouvez spcier les sources
pour lesquelles les diagrammes doivent tre gnrs. Les numros de source entrs doivent tre des valeurs de la variable de sources spcie dans la bote de dialogue principale et tre classs de 1 jusquau nombre de sources.
Diagrammes des lignes. Si des transformations sont appliques par lignes, vous pouvez spcier la
ligne pour laquelle les diagrammes doivent tre gnrs pour les Diagrammes de transformations et les Diagrammes de Shepard. Les numros de lignes doivent tre compris entre 1 et le nombre de lignes.
Donnes de saisie : Inclut les proximits dorigine et, si elles existent, les pondrations de
dune ligne ou dune source, y compris les moyennes et les carts-types de la ligne, de la colonne ou de la source.
Transformations transformes : Afche les proximits transformes. Espace commun final. Afche les coordonnes de lespace commun. Pondration de lespace. Afche les pondrations de lespace individuel. Cette option est
uniquement disponible lorsque lun des modles de diffrences individuelles est spci. En fonction du modle, les pondrations des espaces sont dcomposes en pondrations de rotation et de dimension, lesquelles sont galement afches.
Espaces individuels : Les coordonnes de lespace individuel sont afches. Cette option est
uniquement disponible lorsque lun des modles de diffrences individuelles est spci.
Distances ajustes. Afche les distances entre les objets de la conguration.
Enregistrer dans nouveau fichier : Vous pouvez enregistrer les coordonnes de lespace commun,
les pondrations des espaces individuels, les distances et les proximits transformes dans des chiers de donnes IBM SPSS Statistics distincts.
Spciez plusieurs listes sources pour les Espaces individuels, les Diagrammes de dispersion de lajustement et les Diagrammes des rsidus, ainsi que pour les Diagrammes de transformations et les Diagrammes de Shepard dans le cas de transformations conditionnelles dune matrice, lorsque plusieurs sources sont disponibles (avec la sous-commande PLOT). Spciez plusieurs listes de lignes pour les Diagrammes de transformations et les Diagrammes de Shepard dans le cas de transformations conditionnelles par lignes (avec la sous-commande PLOT). Spciez un nombre de colonnes au lieu dune variable ID de colonne (avec la commande INPUT). Spciez un nombre de sources au lieu dune variable ID de source (avec la commande INPUT).
Pour obtenir des renseignements complets sur la syntaxe, reportez-vous au manuel Command Syntax Reference.
Chapitre
Rgression nominale
Lobjectif de la rgression nominale avec codage optimal est de dcrire la relation entre une variable de rponse et un groupe de variables prdites. La quantication de cette relation permet de prvoir les valeurs de la rponse pour nimporte quelle combinaison de variables prdites. Dans ce chapitre, deux exemples illustrent les analyses impliques dans la rgression avec codage optimal. Le premier exemple utilise un ensemble de donnes rduit pour illustrer les concepts de base. Le second exemple utilise un ensemble plus vaste de variables et dobservations dans une application pratique.
ltiquette Variable Conception du conditionnement Nom de la marque Prix Etiquette Economique Garantie Satisfait ou rembours
Etiquette de valeur A*, B*, C* K2R, Glory, Bissell $1.19, $1.39, $1.59 Non, oui Non, oui
Dix consommateurs classent 22 prols dnis par ces critres. La variable Prfrence indique le classement des rangs moyens de chaque prol. Un rang faible correspond une prfrence leve. Cette variable rete une mesure globale de prfrence pour chaque prol. A laide de la rgression nominale, vous allez examiner le rapport entre la prfrence et les cinq critres. Cet ensemble de donnes est disponible dans carpet.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
Copyright SPSS Inc. 1989, 2010 99
100 Chapitre 9
E Slectionnez loption Prfrence comme variable dpendante. E Slectionnez comme variables indpendantes les options allant de Conception du conditionnement
E Slectionnez loption *ZRESID comme variable de laxe y. E Slectionnez loption *ZPRED comme variable de laxe x. E Cliquez sur Poursuivre. E Cliquez sur le bouton Enregistrer dans la bote de dialogue Rgression linaire.
E Slectionnez loption Standardiss dans le groupe Rsidus. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Rgression linaire.
Lapproche standard de la description des relations dans ce cas de gure est la rgression linaire. La mesure la plus courante de lajustement dun modle de rgression aux donnes est R2. Cette statistique indique la quantit de variance, dans la rponse, explicable par la combinaison pondre des variables prdites. Plus la mesure R2 tend vers 1, meilleur est lajustement du modle. La rgression de la variable Prfrence sur les cinq variables prdites aboutit une mesure R2 de 0,707, ce qui indique quenviron 71 % de la variance dans les rangs de prfrence sont explicables par les variables prdites dans la rgression linaire.
Coefficients
Le tableau rpertorie les coefcients standardiss. Le signe du coefcient indique si la rponse prvue augmente ou diminue lorsque la variable prdite augmente, toutes les autres variables prdites tant constantes. Dans le cas des donnes qualitatives, le codage des modalits dtermine la signication de laugmentation dune variable prdite. Par exemple, une augmentation de la variable Garantie satisfait ou rembours, Conception du conditionnement ou Etiquette Economique provoque une diminution du rang de prfrence prvue. La variable Garantie satisfait ou rembours a le code 1 pour aucune garantie Satisfait ou rembours et 2 pour la garantie Satisfait ou rembours. Une augmentation de la variable Garantie satisfait ou rembours correspond lajout dune garantie Satisfait ou rembours. Par consquent, lajout dune garantie Satisfait ou rembours rduit le rang de prfrence prvue, ce qui correspond une augmentation de la prfrence prvue.
Figure 9-5 Coefficients de rgression
La valeur du coefcient rete la quantit de modications survenues dans le rang de prfrence prvue. A partir de coefcients standardiss, les interprtations sont bases sur les carts-types des variables. Chaque coefcient indique le nombre dcarts-types que la rponse prvue remplace par un cart-type de 1 dans une variable prdite, toutes les autres variables prdites demeurant constantes. Par exemple, une modication dcart-type de 1 dans la variable Nom de marque provoque une augmentation dcart-type de 0,056 dans la prfrence prvue. Lcart-type de la
104 Chapitre 9
variable Prfrence tant 6,44, la variable Prfrence augmente de . Les modications de la variable Conception du conditionnement provoquent les changements les plus importants dans la prfrence prvue.
Les rsidus standardiss sont reprsents par rapport aux prvisions standardises. Aucun motif ne doit tre prsent si le modle sajuste correctement. Ici, vous pouvez constater une forme en U dans laquelle les prvisions standardises basses et leves possdent des rsidus positifs. Les prvisions standardises proches de 0 tendent dtenir des rsidus ngatifs.
E Pour gnrer un diagramme de dispersion des rsidus partir de la variable prdite Conception du
E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Rsidus standardiss comme variable de laxe y et loption Conception du
La forme en U est davantage prononce dans le diagramme des rsidus standardiss tabli par rapport au conditionnement. Chaque rsidu de la conception B* est ngatif, tandis que tous les rsidus, lexception dun seul, sont positifs pour les deux autres conceptions. Etant donn que le modle de rgression linaire ajuste un paramtre par variable, la relation ne peut pas tre capture par lapproche standard.
Excution de lanalyse
E Pour excuter une analyse de rgression nominale, choisissez les options suivantes dans les menus : Analyse > Rgression > Codage optimal (CATREG) Figure 9-9 Bote de dialogue Rgression nominale
E Slectionnez loption Prfrence comme variable dpendante. E Slectionnez comme variables indpendantes les options allant de Conception du conditionnement
E Slectionnez loption Numrique comme niveau de codage optimal. E Cliquez sur Poursuivre.
108 Chapitre 9 E Slectionnez loption Conception du conditionnement, puis cliquez sur Dfinir lchelle dans la
E Slectionnez loption Nominal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Slectionnez les options allant de Nom de marque Garantie satisfait ou rembours, puis cliquez sur Dfinir lchelle dans la bote de dialogue Rgression nominale. Figure 9-12 Bote de dialogue Dfinir lchelle
E Slectionnez loption Numrique comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur Rsultat dans la bote de dialogue Rgression nominale.
E Slectionnez les options Corrlations des variables dorigine et Corrlations des variables transformes. E Dslectionnez loption ANOVA. E Cliquez sur Poursuivre. E Cliquez sur le bouton Enregistrer dans la bote de dialogue Rgression nominale.
E Slectionnez Enregistrer les rsidus dans lensemble de donnes actif. E Slectionnez Enregistrer les variables transformes dans lensemble de donnes actif dans le groupe
Variables transformes.
E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Rgression nominale.
au prix (prix).
E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Rgression nominale.
Intercorrlations
Les intercorrlations existant entre les variables prdites permettent didentier la multicolinarit dans la rgression. Les variables en troite corrlation aboutissent des estimations de rgression instables. Toutefois, en raison de leur corrlation leve, lomission de lune delles dans le modle naffecte que trs lgrement la prvision. Dans la rponse, la variance explicable par la variable omise est explique par la variable corrle restante. Toutefois, les corrlations simples sont sensibles aux valeurs loignes et, en outre, ne peuvent pas identier la multicolinarit en raison dune corrlation leve entre une variable prdite et une combinaison dautres variables prdites.
Figure 9-16 Corrlations des variables prdites initiales
Les intercorrlations des variables prdites pour les variables prdites non transformes et transformes sont afches. Toutes les valeurs sont proches de 0, ce qui indique que la multicolinarit entre les diffrentes variables nest pas proccupante. Les seules corrlations qui changent concernent la variable Conception du conditionnement. Etant donn que toutes les autres variables prdites sont traites de manire numrique, les diffrences entre les modalits et leur ordre sont conserves pour ces variables. Par consquent, les corrlations ne peuvent pas changer.
Le tableau suivant rpertorie les coefcients de rgression standardiss. Etant donn que la rgression nominale standardise les variables, seuls les coefcients standardiss sont indiqus. Ces valeurs sont divises par les erreurs standard correspondantes, aboutissant un test F pour chaque variable. Toutefois, le test de chaque variable dpend des autres variables iprdites prsentes dans le modle. En dautres termes, le test dtermine si lomission dune variable prdite dans le modle, alors que toutes les autres y sont prsentes, dtriore sensiblement les capacits prvisionnelles de celui-ci. Ces valeurs ne doivent pas tre utilises pour omettre simultanment
plusieurs variables dans un modle ultrieur. En outre, lutilisation de moindres carrs alterns optimise les quantications, ce qui implique que ces tests doivent tre interprts avec prudence.
Figure 9-19 Coefficients standardiss des variables prdites transformes
Le coefcient le plus lev concerne la variable Conception du conditionnement. Une augmentation dcart-type de 1 dans la variable Conception du conditionnement provoque une diminution dcart-type de 0,748 dans le rang de prfrence prvue. Toutefois, la variable Conception du conditionnement tant traite de manire nominale, il nest pas ncessaire quune augmentation des quantications corresponde une augmentation des codes de modalit initiaux. Les coefcients standardiss sont souvent interprts comme rvlateurs de limportance de chaque variable prdite. Toutefois, les coefcients de rgression ne peuvent pas dcrire entirement limpact dune variable prdite ou les relations entre les variables prdites. Vous devez recourir dautres statistiques, conjointement aux coefcients standardiss, pour explorer compltement les effets des variables prdites.
Corrlations et importance
Le seul examen des coefcients de rgression est insufsant pour interprter les contributions des variables prdites la rgression. En outre, les corrlations, les corrlations partielles et les mesures doivent tre examines. Le tableau suivant illustre les mesures de corrlation pour chaque variable. La corrlation simple est la corrlation existant entre la variable prdite et la rponse transformes. Pour ces donnes, la corrlation la plus leve concerne la variable Conception du conditionnement. Toutefois, si vous pouvez expliquer une partie de la variation dans la variable prdite ou dans la rponse, vous obtenez une meilleure reprsentation de la qualit de la variable prdite.
Figure 9-20 Corrlations simples, mesures et corrlations partielles (variables transformes)
114 Chapitre 9
Dautres variables du modle peuvent fausser leffet dune variable prdite donne lors de la prvision de la rponse. Le coefcient de corrlation partielle supprime les effets linaires des autres variables prdites de la rponse et de la variable prdite. Cette mesure quivaut la corrlation entre les rsidus issus de la rgression de la variable prdite sur les autres variables prdites et ceux issus de la rgression de la rponse sur les autres variables prdites. La corrlation partielle carre correspond la proportion de la variance explique par rapport la variance rsiduelle de la rponse, aprs suppression des effets des autres variables. Par exemple, la corrlation partielle de la variable Conception du conditionnement est gale 0,955. Une fois les effets des autres variables supprims, la variable Conception du conditionnement explique 91 % (0,955)2 = 0,91) de la variation des rangs de prfrence. Les variables Prix et Etiquette Economique expliquent galement une large partie de la variance si les effets des autres variables sont supprims. Au lieu de supprimer les effets de variables de la rponse et dune variable prdite, vous pouvez vous contenter de les supprimer de la variable prdite. La corrlation entre la rponse et les rsidus issus de la rgression dune variable prdite sur les autres variables prdites est la mesure. Llvation au carr de cette valeur donne une mesure de la proportion de variance explique par rapport la variance totale de la rponse. Si vous supprimez les effets des variables Nom de marque, Etiquette Economique, Garantie satisfait ou rembours et Prix de la variable Conception du conditionnement, la partie restante de cette dernire explique 54 % (0,733)2 = 0,54) de la variation des rangs de prfrence.
Importance
Outre les coefcients de rgression et les corrlations, la mesure dimportance relative de Pratt(Pratt, 1987) facilite linterprtation des contributions des variables prdites la rgression. Des importances leves par rapport aux autres importances correspondent des variables prdites cruciales pour la rgression. De mme, la prsence de variables suppressives est signale par une importance faible dans le cas dune variable dont la taille du coefcient est similaire celle du coefcient des variables prdites importantes. Par opposition aux coefcients de rgression, cette mesure dnit limportance des variables prdites de manire additive, cest--dire que limportance dun groupe de variables prdites est la somme de limportance de chacune de ces variables. La mesure de Pratt quivaut au produit du coefcient de rgression et de la corrlation simple dune variable prdite. Ces produits sajoutent R2, ils sont donc diviss par R2, ce qui gnre une somme gale 1. Le groupe de variables prdites Conception du conditionnement et Nom de la marque, par exemple, ont une importance de 0,654. Limportance la plus leve correspond la variable Conception du conditionnement, les variables Conception du conditionnement, Prix et Etiquette Economique reprsentant 95 % de limportance de cette combinaison de variables prdites.
Multicolinarit
Les corrlations leves entre variables prdites rduisent sensiblement la stabilit dun modle de rgression. Les variables prdites corrles aboutissent des estimations de paramtre instables. La tolrance rete le degr de linarit de la relation entre les variables indpendantes. Cette mesure constitue la proportion de la variance dune variable qui nest pas explique par dautres variables indpendantes de lquation. Si les autres variables prdites peuvent expliquer une large partie de la variance dune variable prdite, celle-ci nest pas requise dans le modle. Une
valeur de tolrance proche de 1 indique que la variable ne peut pas tre prvue trs correctement partir des autres variables prdites. En revanche, une variable trs faible tolrance apporte peu dinformations un modle et peut entraner des problmes de calcul. En outre, des valeurs ngatives leves de la mesure dimportance de Pratt indiquent une multicolinarit. Toutes les mesures de tolrance sont trs leves. Aucune des variables prdites nest prvue trs correctement par les autres variables prdites et il ny a pas de multicolinarit.
Diagrammes de transformation
La reprsentation des valeurs de modalit initiales par rapport aux quantications correspondantes peut mettre en vidence des tendances quune liste de quantications ne laisse pas forcment transparatre. Ces types de diagramme sont communment appels Diagrammes de transformation. Vous devez prter une attention particulire aux modalits qui reoivent des quantications similaires. Ces modalits affectent la rponse prvue de la mme manire. Toutefois, le type de transformation dtermine laspect de base du diagramme. Les variables traites en tant que donnes numriques aboutissent une relation linaire entre les quantications et les modalits initiales, qui apparat sous la forme dune ligne droite dans le diagramme de transformation. Lordre des modalits initiales et leurs diffrences sont conservs dans les quantications. Lordre des quantications des variables traites en tant que donnes ordinales correspond lordre des modalits initiales. Toutefois, les diffrences entre les modalits ne sont pas conserves. Par consquent, le diagramme de transformation est non dcroissant, mais nest pas ncessairement une ligne droite. Si des modalits conscutives correspondent des quantications similaires, la distinction entre elles peut savrer superue et les modalits peuvent tre combines. Ces modalits se traduisent par un palier dans le diagramme de transformation. Toutefois, ce motif peut galement rsulter de lapplication dune structure ordinale une variable traiter comme donne nominale. Si un traitement nominal ultrieur de la variable met en vidence le mme motif, la combinaison des modalits est garantie. En outre, si les quantications dune variable traite en tant que donne ordinale salignent sur une ligne droite, une transformation numrique peut savrer plus approprie. Dans le cas des variables traites en tant que donnes nominales, lordre des modalits le long de laxe horizontal correspond lordre des codes utiliss pour les reprsenter. Les interprtations de lordre des modalits ou de la distance les sparant sont sans fondement. Le diagramme peut prendre toute forme non linaire ou linaire. En prsence dune tendance ascendante, un traitement ordinal doit tre tent. Si le diagramme de transformation nominale montre une tendance linaire, une transformation numrique peut savrer plus approprie. Le schma ci-aprs illustre le diagramme de transformation de la variable Prix, qui a t traite en tant que donne numrique. Lordre des modalits le long de la ligne droite correspond lordre des modalits dorigine. En outre, la diffrence entre les quantications de 1,19 $ et 1,39 $ (1,173 et 0) est la mme que celle entre les quantications de 1,39 $ et 1,59 $ (0 et 1,173). Le fait que les modalits 1 et 3 soient gale distance de la modalit 2 est conserv dans les quantications.
La transformation nominale de la variable Conception du conditionnement gnre le diagramme de transformation ci-aprs. Notez la forme non linaire distincte sous laquelle la deuxime modalit dtient la quantication la plus leve. En matire de rgression, la deuxime modalit diminue le rang de prfrence prvue, tandis que les premire et troisime modalits ont leffet inverse.
Figure 9-22 Diagramme de transformation de conception du conditionnement (nominal)
Pour obtenir ce type de diagramme de dispersion, rappelez le Gnrateur de diagrammes, puis cliquez sur le bouton Rinitialiser pour effacer vos slections prcdentes et restaurer les options par dfaut.
Figure 9-23 Gnrateur de diagrammes
E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Rsidus comme variable de laxe y. E Slectionnez loption Conception du conditionnement - Quantication comme variable de laxe x. E Cliquez sur OK.
Le diagramme de dispersion reprsente les rsidus standardiss par rapport aux quantications optimales de la variable Conception du conditionnement. Tous les rsidus gurent dans deux carts-types de valeur 0. Une dispersion alatoire de points remplace la forme en U prsente dans le diagramme de dispersion issu de la rgression linaire standard. La quantication optimale des modalits amliore les capacits prvisionnelles.
Description niveau quotidien dozone ; class dans lune des 38 modalits hauteur de base dinversion gradient de pression (mm Hg) visibilit (miles) temprature (degrs F) jour de lanne
Cet ensemble de donnes est disponible dans le chier ozone.sav.Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
E Slectionnez loption Niveau quotidien dozone comme variable dpendante. E Slectionnez les options allant de Hauteur de base dinversion Jour de lanne comme variables
indpendantes.
E Slectionnez loption Niveau quotidien dozone, puis cliquez sur Dfinir lchelle. Figure 9-26 Bote de dialogue Dfinir lchelle
E Slectionnez loption Numrique comme niveau de codage optimal. E Cliquez sur Poursuivre. E Slectionnez les options allant de Hauteur de base dinversion Jour de lanne, puis cliquez sur Dfinir lchelle dans la bote de dialogue Rgression nominale.
E Slectionnez loption Nominal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur Discrtiser dans la bote de dialogue Rgression nominale. Figure 9-28 Discrtisation
E Slectionnez loption h base inv. E Slectionnez loption Intervalles gaux, puis tapez 100 comme longueur de lintervalle. E Cliquez sur Changer.
122 Chapitre 9 E Slectionnez les options gr press, vis et jour anne. E Tapez 10 comme longueur de lintervalle. E Cliquez sur Changer. E Slectionnez loption temp. E Tapez 1.8 comme longueur de lintervalle. E Cliquez sur Changer. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Rgression nominale. Figure 9-29 Bote de dialogue Diagrammes
E Slectionnez les diagrammes de transformation pour la variable Hauteur de base dinversion dans
Le traitement de toutes les variables prdites en tant que donnes nominales gnre une mesure R2 gale 0,880. Cette quantit leve de variance reprsente nest pas surprenante dans la mesure o le traitement nominal nimpose aucune restriction sur les quantications. Toutefois, linterprtation des rsultats peut savrer assez difcile.
Figure 9-31 Coefficients de rgression (toutes les variables prdites traites en tant que donnes nominales)
Ce tableau indique les coefcients de rgression standardiss des variables prdites. Une erreur frquente lors de linterprtation de ces valeurs consiste se concentrer sur les coefcients au dtriment des quantications. Vous ne pouvez pas simplement afrmer quune valeur positive de Hauteur de base dinversion, implique que lorsque la variable prdite augmente, lOzone prvu augmente. Toutes les interprtations doivent tre en rapport avec les variables transformes. Par consquent, lorsque les quantications de Hauteur de base dinversion augmentent, lOzone prvu augmente. Pour examiner les effets des variables initiales, vous devez dnir les relations entre les modalits et les quantications.
124 Chapitre 9 Figure 9-32 Diagramme de transformation de la variable Hauteur de base dinversion (nominal)
Le diagramme de transformation de la variable Hauteur de base dinversion ne montre aucun motif apparent. Comme latteste la nature irrgulire du diagramme, le passage des modalits infrieures aux modalits suprieures gnre des uctuations des quantications dans les deux sens. Par consquent, la description des effets de cette variable requiert une analyse des diffrentes modalits. Le fait dimposer des restrictions ordinales ou linaires aux quantications de cette variable peut sensiblement rduire lajustement.
125 Rgression nominale Figure 9-33 Diagramme de transformation de la variable Gradient de pression (nominal)
Ce schma illustre le diagramme de transformation de la variable Gradient de pression. Les modalits discrtises initiales (1 6) reoivent des quantications rduites, si bien quelles contribuent de faon minimale la rponse prvue. Les trois modalits suivantes reoivent des valeurs positives un peu plus leves, gnrant une augmentation modre de lozone prvu. Les quantications diminuent jusqu la modalit 16, o la variable Gradient de pression produit son effet de diminution le plus important sur lozone prvu. Bien que la courbe remonte aprs cette modalit, lutilisation dun niveau de codage ordinal pour la variable Gradient de pression risque de ne pas beaucoup rduire lajustement, tout en simpliant les interprtations des effets. Toutefois, la mesure dimportance 0,04 et le coefcient de rgression de la variable Gradient de pression indiquent que cette variable nest pas trs utile dans la rgression.
Le diagramme de transformation de la variable Visibilit, linstar de celui de la variable Hauteur de base dinversion, ne montre aucun motif apparent. Le fait dimposer des restrictions ordinales ou linaires aux quantications de cette variable peut sensiblement rduire lajustement.
127 Rgression nominale Figure 9-35 Diagramme de transformation de la variable Temprature (nominal)
Le diagramme de transformation de la variable Temprature montre un autre motif. A mesure que les modalits augmentent, les quantications tendent saccrotre. Par consquent, mesure que la variable Temprature augmente, lozone prvu tend saccrotre. Ce motif suggre le codage de la variable Temprature au niveau ordinal.
128 Chapitre 9 Figure 9-36 Diagramme de transformation de la variable Jour de lanne (nominal)
Ce schma illustre le diagramme de transformation de la variable Jour de lanne. Les quantications tendent augmenter jusquau centre du graphique, point partir duquel elles tendent diminuer, gnrant une forme en U invers. Daprs le signe du coefcient de rgression de la variable Jour de lanne, les modalits initiales reoivent des quantications ayant un effet rducteur sur lozone prvu. Pour les modalits intermdiaires, leffet des quantications sur lozone prdit augmente, atteignant son maximum autour du centre du graphique. Au-del de ce point, les quantications tendent diminuer lozone prvu. Bien que la courbe soit assez irrgulire, la forme gnrale reste identiable. Par consquent, les diagrammes de transformation suggrent le codage de la variable Temprature au niveau ordinal avec conservation du codage nominal pour toutes les autres variables prdites.
Pour calculer de nouveau la rgression en codant la variable Temprature au niveau ordinal, rappelez la bote de dialogue Rgression nominale.
Figure 9-37 Bote de dialogue Dfinir lchelle
E Slectionnez loption Temprature, puis cliquez sur Dfinir lchelle. E Slectionnez loption Ordinal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur le bouton Enregistrer dans la bote de dialogue Rgression nominale. Figure 9-38 Bote de dialogue Enregistrer
E Slectionnez Enregistrer les variables transformes dans lensemble de donnes actif dans le groupe
Variables transformes.
E Cliquez sur Poursuivre.
130 Chapitre 9 E Cliquez sur OK dans la bote de dialogue Rgression nominale. Figure 9-39 Rcapitulatif du modle de la rgression, avec traitement de la variable Temprature en tant que donne ordinale
Ce modle gnre une mesure R2 gale 0.872, si bien que la variance reprsente diminue de faon ngligeable lorsque les quantications de la variable Temprature sont limites tre ordonnes.
Figure 9-40 Coefficients de rgression avec traitement de la variable Temprature en tant que donne ordinale
Ce tableau rpertorie les coefcients du modle dans lequel la variable Temprature est soumise un codage ordinal. La comparaison des coefcients ceux du modle dans lequel la variable Temprature est soumise un codage nominal ne laisse pas apparatre de diffrences signicatives.
En outre, les mesures dimportance suggrent que la variable Temprature reste beaucoup plus importante pour la rgression que les autres variables. Toutefois, en raison du niveau de codage ordinal de la variable Temprature et du coefcient de rgression positif, vous pouvez dsormais afrmer que lozone prvu augmente mesure que la variable Temprature saccrot.
Figure 9-42 Diagramme de transformation de la variable Temprature (ordinal)
Le diagramme de transformation illustre la restriction ordinale applique aux quantications de la variable Temprature. La courbe irrgulire issue de la transformation nominale est remplace ici par une courbe ascendante douce. En outre, labsence de longs paliers indique que la fusion des modalits nest pas ncessaire.
132 Chapitre 9
E Slectionnez loption Niveau quotidien dozone - Quantication comme variable dpendante. E Slectionnez les options Hauteur de base dinversion - Quantication, Gradient de pression (mm
133 Rgression nominale Figure 9-44 Rcapitulatif du modle de rgression avec un sous-ensemble de variables prdites codes de faon optimale
Grce lutilisation des quantications pour la rponse, les variables Temprature, Gradient de pression et Hauteur de base dinversion dans une rgression linaire standard gnrent un ajustement gal 0.732. Pour comparer ce dernier lajustement dune rgression nominale en utilisant uniquement ces trois variables prdites, rappelez la bote de dialogue Rgression nominale.
Figure 9-45 Bote de dialogue Rgression nominale
E Dslectionnez les options Visibilit (miles) et Jour de lanne comme variables prdites. E Cliquez sur OK.
134 Chapitre 9 Figure 9-46 Rcapitulatif du modle de rgression nominale sur trois variables prdites
Lanalyse de rgression nominale possde un ajustement gal 0.796, meilleur que lajustement de 0.732. Cela dmontre la proprit des codages selon laquelle les quantications obtenues dans la rgression initiale ne sont optimales que lorsque les cinq variables sont incluses dans le modle.
E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Niveau quotidien dozone comme variable de laxe y et loption Jour de
136 Chapitre 9 Figure 9-48 Diagramme de dispersion du niveau dozone quotidien par jour de lanne
Ce schma illustre la relation entre les variables Niveau quotidien dozone et Jour de lanne. A mesure que la variable Jour de lanne augmente jusqu environ 200, la variable Niveau quotidien dozone saccrot. Toutefois, pour les valeurs de la variable Jour de lanne suprieures 200, la variable Niveau quotidien dozone diminue. Ce motif en U invers suggre une relation quadratique entre les deux variables. Une rgression linaire ne peut pas capturer cette relation.
E Pour quune courbe optimise relie les points du diagramme de dispersion, activez le graphique
en double-cliquant dessus.
E Slectionnez un point dans lditeur de diagrammes. E Cliquez sur loutil Ajouter une courbe dajustement au total, puis fermez Chart Editor.
137 Rgression nominale Figure 9-49 Diagramme de dispersion contenant la courbe dajustement la plus approprie
Une rgression linaire de la variable Niveau quotidien dozone sur la variable Jour de lanne gnre une mesure R2 gale 0,004. Cet ajustement suggre que la variable Jour de lanne ne possde aucune valeur prvisionnelle pour la variable Niveau quotidien dozone. Cela nest pas surprenant, au vu du motif du schma. Toutefois, vous pouvez recourir au codage optimal pour linariser la relation quadratique et utiliser la variable Jour de lanne transforme pour prvoir la rponse.
Pour obtenir une rgression nominale de la variable Niveau quotidien dozone sur la variable Jour de lanne, rappelez la bote de dialogue Rgression nominale.
E Dslectionnez les options allant de Hauteur de base dinversion Temprature (degrs F)
E Slectionnez loption Nominal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Cliquez sur Discrtiser dans la bote de dialogue Rgression nominale.
E Slectionnez loption jour anne. E Slectionnez loption Intervalles gaux. E Tapez 10 comme longueur de lintervalle. E Cliquez sur Changer. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Rgression nominale.
E Slectionnez loption jour anne pour les diagrammes de transformation. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Rgression nominale. Figure 9-54 Rcapitulatif du modle de rgression nominale de la variable Niveau quotidien dozone sur la variable Jour de lanne
La rgression avec codage optimal traite la variable Niveau quotidien dozone en tant que donne numrique et la variable Jour de lanne en tant que donne nominale. Cette opration gnre une mesure R2 gale 0,549. Bien que seulement 55 % de la variation de la variable Niveau quotidien dozone soient reprsents par la rgression nominale, cela constitue une amlioration signicative par rapport la rgression initiale. La transformation de la variable Jour de lanne permet de prvoir la variable Niveau quotidien dozone.
141 Rgression nominale Figure 9-55 Diagramme de transformation de la variable Jour de lanne (nominal)
Ce schma afche le diagramme de transformation de la variable Jour de lanne. Les deux extrmes de la variable Jour de lanne reoivent des quantications ngatives, tandis que les valeurs centrales possdent des quantications positives. Une fois cette transformation applique, les valeurs basse et haute de la variable Jour de lanne ont des effets similaires sur la variable Niveau quotidien dozone prvue.
Pour obtenir un diagramme de dispersion des variables transformes, rappelez le Gnrateur de diagrammes, puis cliquez sur le bouton Rinitialiser an deffacer vos slections antrieures.
E Slectionnez la galerie Dispersion/Points, puis choisissez Dispersion simple. E Slectionnez loption Niveau quotidien dozone - Quantication [TRA1_3] comme variable de
143 Rgression nominale Figure 9-57 Diagramme de dispersion des variables transformes
Ce schma dcrit la relation entre les variables transformes. Une tendance laugmentation remplace la forme en U inverse. La ligne de rgression possde une pente positive, ce qui indique que le Niveau dozone quotidien prvu augmente mesure que la variable Jour de lanne transforme saccrot. Lutilisation du codage optimal linarise la relation et autorise des interprtations qui seraient passes inaperues.
Lectures recommandes
Pour plus dinformations sur la rgression nominale, reportez-vous aux documents suivants : Buja, A. 1990. Remarks on functional canonical variates, alternating least squares methods and ACE. Annals of Statistics, 18, . Hastie, T., R. Tibshirani, et A. Buja. 1994. Flexible discriminant analysis. Journal of the American Statistical Association, 89, . Hayashi, C. 1952. On the prediction of phenomena from qualitative data and the quantication of qualitative data from the mathematico-statistical point of view. Annals of the Institute of Statitical Mathematics, 2, . Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotone transformations of the data. Journal of the Royal Statistical Society Series B, 27, . Meulman, J. J. 2003. Prediction and classication in nonlinear data analysis: Something old, something new, something borrowed, something blue. Psychometrika, 4, . Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4, .
144 Chapitre 9
Van der Kooij, A. J., et J. J. Meulman. 1997. MURALS: Multiple regression and optimal scaling using alternating least squares. Dans : Softstat 97, F. Faulbaum, et W. Bandilla, ds. Stuttgart: Gustav Fisher. Winsberg, S., et J. O. Ramsay. 1980. Monotonic transformations to additivity using splines. Biometrika, 67, . Winsberg, S., et J. O. Ramsay. 1983. Monotone spline transformations for dimension reduction. Psychometrika, 48, . Young, F. W., J. De Leeuw, et Y. Takane. 1976. Regression with qualitative and quantitative variables: An alternating least squares method with optimal scaling features. Psychometrika, 41, .
10
Chapitre
Lanalyse en composantes principales qualitatives peut tre considre comme une mthode de rduction des dimensions. Un ensemble de variables est analys de manire mettre en vidence les principales dimensions de variation. Lensemble de donnes initial peut ensuite tre remplac par un nouvel ensemble plus petit avec une perte dinformations minimale. La mthode met en vidence les relations entre les variables, entre les observations et entre les variables et les observations. Le critre utilis par lanalyse en composantes principales qualitatives pour la quantication des donnes observes est le suivant : les coordonnes principales (scores des composantes) doivent avoir des corrlations leves avec chacune des variables quanties. Une solution est approprie dans la mesure o ce critre est respect. Deux exemples danalyse en composantes principales qualitatives seront prsents. Le premier emploie un ensemble de donnes plutt rduit permettant dillustrer les concepts de base et les interprtations associes la procdure. Le second exemple examine une application pratique.
146 Chapitre 10
cet exemple, les cinq premires variables des donnes sont incluses dans lanalyse, tandis que la classe est exclusivement utilise comme variable dtiquetage. Lorsque vous spciez une analyse des composantes principales qualitatives, vous devez dnir le niveau de codage optimal de chaque variable danalyse. Dans cet exemple, un niveau ordinal est spci pour toutes les variables danalyse.
Table 10-1 Variables de lensemble de donnes Guttman-Bell
ltiquette Variable Intensit de linteraction Frquence de linteraction Sentiment dappartenance Proximit physique Formalit de la relation
Etiquette de valeur lgre, faible, modre, leve Lgre, non rcurrente, rare, frquente Aucun, lger, variable, lev Distante, proche aucune relation, formelle, informelle Foules, audience, public, modle dobjets, groupes primaires, groupes secondaires, communaut moderne
Excution de lanalyse
E Pour gnrer un rsultat de composants principaux qualitatifs pour cet ensemble de donnes,
E Slectionnez loption Certaines variables non nominales multiples dans le groupe Niveau du codage
optimal.
E Cliquez sur Dfinir.
147 Analyse en composantes principales qualitatives Figure 10-2 Bote de dialogue Composantes principales qualitatives
variables danalyse.
E Cliquez sur Dfinir lchelle et la pondration. Figure 10-3 Dfinir lchelle et la pondration
E Slectionnez loption Ordinal dans le groupe Niveau du codage optimal. E Cliquez sur Poursuivre.
148 Chapitre 10 E Slectionnez grappe comme variable dtiquetage dans la bote de dialogue Composantes
principales qualitatives.
E Cliquez sur Rsultat. Figure 10-4 Rsultat
E Slectionnez loption Coordonnes principales et dslectionnez loption Corrlations des variables transformes dans le groupe Tableaux. E Appliquez la gnration de quantications de modalits aux options allant de intnsit (Intensit de
qualitatives.
149 Analyse en composantes principales qualitatives Figure 10-5 Diagrammes dobjets et de variables
E Slectionnez loption Objets et variables (diagramme double) dans le groupe Diagrammes. E Dans le groupe Objets dtiquetage, choisissez loption dtiquetage des objets par Variable, puis
qualitatives.
E Appliquez lopration Joindre les diagrammes de modalits aux options allant de intnsit (Intensit
Nombre de dimensions.
Ces donnes montrent une partie du rsultat initial de lanalyse en composantes principales nominales. Aprs lhistorique des itrations de lalgorithme, le rcapitulatif du modle, y compris les valeurs propres de chaque dimension, apparat. Ces valeurs propres sont quivalentes celles de lanalyse en composantes principales classique. Elles permettent de mesurer la quantit de variance reprsente par chaque dimension.
151 Analyse en composantes principales qualitatives Figure 10-7 Historique des itrations
Les valeurs propres permettent de dterminer le nombre de dimensions requises. Cet exemple utilise le nombre de dimensions par dfaut (2). Ce nombre est-il correct ? En rgle gnrale, lorsque toutes les variables sont nominales simples, ordinales ou numriques, la valeur propre dune dimension doit tre suprieure 1. Dans la mesure o la solution bidimensionnelle reprsente 94,52 % de la variance, une troisime dimension napporterait probablement pas beaucoup plus dinformations. Dans le cas des variables nominales multiples, il nexiste pas de principe de base simple permettant de dterminer le nombre de dimensions appropri. Si le nombre de variables est remplac par le nombre total de modalits moins le nombre de variables, la rgle ci-dessus demeure valable. Cependant, cette rgle seule autoriserait probablement davantage de dimensions que le nombre requis. Lors du choix du nombre de dimensions, la conduite la plus utile consiste dnir un nombre sufsamment faible de manire ce que des interprtations signicatives soient possibles. En outre, le tableau rcapitulatif du modle indique lalpha de Cronbach (mesure de abilit), qui est optimis par la procdure.
Quantifications
Pour chaque variable, les quantications, les coordonnes vectorielles et celles des centres de gravit de chaque dimension sont prsentes. Les quantications sont les valeurs affectes chaque modalit. Les coordonnes des centres de gravit reprsentent la moyenne des coordonnes principales des objets dune mme modalit. Les coordonnes vectorielles sont les coordonnes des modalits qui gurent sur une ligne, an de reprsenter la variable dans lespace de lobjet. Ce dispositif est requis pour les variables dont le niveau de codage est ordinal ou numrique.
Les quantications du diagramme joint des points de modalits indiquent que des modalits de certaines variables nont pas t aussi nettement spares par lanalyse des composantes principales nominales que si lopration avait eu recours un niveau rellement ordinal. Les variables Intensit de linteraction et Frquence dinteraction, par exemple, prsentent des quantications gales ou pratiquement gales pour leurs deux modalits intermdiaires. Ce type de rsultat peut amener essayer dautres analyses en composantes principales qualitatives, ventuellement en fusionnant certaines modalits ou en utilisant un autre niveau danalyse, par exemple nominal (multiple).
Figure 10-10 Points de modalits du diagramme joint
Le diagramme joint des points de modalit ressemble au diagramme des contributions des facteurs, mais il indique galement la position des extrema correspondant aux quantications les plus faibles (par exemple, Lgre pour Intensit de linteraction et aucun pour Sentiment dappartenance). Les deux variables mesurant linteraction, Intensit de linteraction et Effectif
dinteractions, sont trs proches lune de lautre et reprsentent une grande partie de la variance de la dimension 1. La valeur Formalit de la relation se trouve galement prs de Proximit physique. Les points de modalit permettent de discerner les relations plus clairement. Non seulement les variables Intensit de linteraction et Frquence dinteraction sont proches, mais les directions de leurs chelles sont similaires ; en dautres termes, une intensit lgre est proche dune frquence lgre et une interaction frquente est proche dune intensit dinteraction leve. Vous pouvez galement constater que la forte proximit physique semble aller de pair avec un type informel de relation et que la distance physique est lie labsence de relation.
Coordonnes principales
En outre, vous pouvez demander une liste et un diagramme des coordonnes principales. Le diagramme des coordonnes principales peut tre utile pour dtecter des valeurs loignes, reprer des groupes typiques dobjets ou mettre en vidence des modles particuliers. Le tableau des coordonnes principales rpertorie les coordonnes principales tiquetes par groupe social pour les donnes Guttman-Bell. En examinant les valeurs des points des objets, vous pouvez identier des objets spciques dans le diagramme.
Figure 10-11 Coordonnes des objets
La premire dimension spare FOULES et PUBLIC, qui ont des scores ngatifs relativement levs, de BANDES et GROUPES PRIMAIRES, qui ont des scores positifs relativement levs. La deuxime dimension possde trois groupes : PUBLIC et GROUPES SECONDAIRES avec des valeurs ngatives leves, FOULES avec des valeurs positives leves, puis les autres groupes sociaux intermdiaires. Linspection du diagramme des coordonnes principales met en vidence cette organisation.
Dans le diagramme, PUBLIC et GROUPES SECONDAIRES apparaissent en bas, FOULES en haut et les autres groupes sociaux au milieu. Lexamen des modles parmi les diffrents objets dpend des informations supplmentaires disponibles pour les units de lanalyse. Dans ce cas, vous connaissez la classication des objets. Dans dautres cas, vous pouvez utiliser des variables supplmentaires pour tiqueter les objets. Vous pouvez galement constater que lanalyse en composantes principales nominales ne spare pas BANDES de GROUPES PRIMAIRES. Bien que la plupart des personnes ne considrent gnralement pas leurs familles comme des bandes, ces deux groupes obtiennent le mme score sur quatre des cinq variables utilises. Il va de soi que vous pouvez explorer les points faibles ventuels des variables et des modalits utilises. Par exemple, une intensit dinteraction leve et des relations informelles nont probablement pas la mme signication pour ces deux groupes. Par ailleurs, vous pouvez envisager une solution impliquant davantage de dimensions.
Saturations
Ce schma illustre le diagramme des corrlations entre composantes. Les vecteurs (lignes) sont relativement longs, ce qui est une nouvelle indication du fait que les deux premires dimensions reprsentent la majeure partie de la variance de toutes les variables quanties. Sur la premire dimension, toutes les variables possdent des corrlations entre composantes leves (positives). La deuxime dimension est principalement corrle avec les variables quanties Sentiment dappartenance et Proximit physique, dans des sens opposs. Cela signie que les objets ayant un score ngatif lev dans la dimension 2 auront un score lev pour le sentiment dappartenance et un score faible pour la proximit physique. Par consquent, la deuxime dimension met en vidence un contraste entre ces deux variables tout en ayant peu de rapport avec les variables quanties Intensit de linteraction et Frquence dinteraction.
155 Analyse en composantes principales qualitatives Figure 10-13 Corrlations entre composantes et variables initiales
Pour examiner la relation entre les objets et les variables, observez le diagramme double des objets et des saturations. Le vecteur dune variable pointe en direction de la modalit la plus leve de la variable. Par exemple, pour les variables Proximit physique et Sentiment dappartenance, les modalits les plus leves sont forte et fort, respectivement. Par consquent, une forte proximit physique et labsence de sentiment dappartenance caractrisent les foules (FOULES), tandis quune proximit physique distante et un fort sentiment dappartenance identient les groupes secondaires (GROUPES SECONDAIRES).
Figure 10-14 Diagramme double
156 Chapitre 10
Dimensions supplmentaires
Laugmentation du nombre de dimensions accrot la quantit de variation prise en compte et peut mettre en vidence des diffrences masques dans les solutions possdant un nombre rduit de dimensions. Comme indiqu prcdemment, dans une solution bidimensionnelle, les groupes BANDES et GROUPES PRIMAIRES ne peuvent pas tre spars. Toutefois, vous pouvez augmenter le nombre de dimensions de manire diffrencier les deux groupes.
Excution de lanalyse
E Pour obtenir une solution tridimensionnelle, afchez de nouveau la bote de dialogue Composantes
principales nominales.
E Tapez 3 comme nombre de dimensions comprises dans la solution. E Cliquez sur OK dans la bote de dialogue Composantes principales qualitatives.
Une solution tridimensionnelle possde les valeurs propres 3,424, 0,844 et 0,732, qui reprsentent la quasi-totalit de la variance.
Coordonnes principales
Les coordonnes principales de la solution tridimensionnelle sont reprsentes dans une matrice de diagramme de dispersion. Dans une matrice de diagramme de dispersion, chaque dimension est reprsente par rapport chacune des autres dimensions dune srie de diagrammes de dispersion bidimensionnelles. Les deux premires valeurs propres des trois dimensions diffrent des valeurs propres de la solution bidimensionnelle ; en dautres termes, les solutions ne sont pas embotes. Etant donn que les valeurs propres des dimensions 2 et 3 sont dsormais infrieures 1 (aboutissant un alpha de Cronbach ngatif), vous devez privilgier la solution bidimensionnelle. La solution tridimensionnelle est propose titre dillustration.
157 Analyse en composantes principales qualitatives Figure 10-16 Matrice de diagramme de dispersion des coordonnes principales tridimensionnelle
La ligne suprieure des diagrammes indique que la premire dimension spare les groupes GROUPES PRIMAIRES et BANDES des autres groupes. Lordre des objets le long de laxe vertical demeure inchang dun diagramme lautre dans la ligne suprieure ; chacun de ces diagrammes utilise la dimension 1 comme axe y. La ligne intermdiaire des diagrammes permet dinterprter la dimension 2. La deuxime dimension a lgrement volu par rapport la solution bidimensionnelle. Prcdemment, la deuxime dimension possdait trois groupes distincts mais les objets sont dsormais davantage rpartis le long de laxe. La troisime dimension permet de sparer le groupe BANDES du groupe GROUPES PRIMAIRES, ce qui ntait pas le cas dans la solution bidimensionnelle. Observez plus attentivement les diagrammes des dimensions 2 et 3 et ceux des dimensions 1 et 2. Dans le plan dni par les dimensions 2 et 3, les objets forment un rectangle approximatif ayant pour sommets FOULES, COMMUNAUTE MODERNE, GROUPES SECONDAIRES et PUBLIC. Dans ce plan, BANDES et GROUPES PRIMAIRES apparaissent comme des combinaisons convexes de PUBLIC-FOULES et de GROUPES SECONDAIRES-COMMUNAUTE MODERNE, respectivement. Toutefois, comme indiqu prcdemment, ils sont spars des autres groupes le long de la dimension 1. Le groupe AUDIENCES nest pas spar des autres groupes le long de la dimension 1 et apparat sous la forme dune combinaison des groupes FOULES et COMMUNAUTE MODERNE.
158 Chapitre 10
Saturations
Figure 10-17 Corrlations entre composantes tridimensionnelles
Le fait de savoir comment les objets sont spars ne permet pas de connatre la correspondance entre variables et dimensions. Pour ce faire, vous devez recourir aux corrlations entre composantes. La premire dimension correspond essentiellement aux groupes Sentiment dappartenance, Intensit de linteraction et Formalit de la relation ; la deuxime spare les groupes Frquence dinteraction et Proximit physique; la troisime dimension spare ceux-ci des autres groupes.
Diagnostic Anorexie mentale Anorexie avec boulimie mentale Boulimie mentale aprs anorexie Trouble atypique du comportement alimentaire Total
Nombre de patients 25 9 14 7 55
Chaque patient a t observ quatre fois sur une priode de quatre annes, soit un total de 220 observations. A chaque observation, les patients ont t nots pour chacun des 16 symptmes prsents dans le tableau ci-aprs. En raison de labsence de scores de symptme pour le patient 71/visite 2, le patient 76/visite 2 et le patient 47/visite 3, le nombre dobservations valides est de 217. Les donnes sont disponibles dans anorectic.sav.Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
Table 10-3 Sous-chelles Morgan-Russell modifies mesurant le bien-tre
Nom de variable poids mens inapptance frnsie alimentaire vomissement laxatifs hyperactivit famille man amis cole atts comps humeur pro corps
ltiquette Variable Poids corporel Menstruation Perte de lapptit (inapptance) Frnsie alimentaire Vomissement Laxatifs Hyperactivit Relations familiales Emancipation par rapport la famille Relations amicales Antcdents scolaires/professionnels Attitude sexuelle Comportement sexuel Etat mental (humeur) Proccupation nourriture et poids Perception du corps
Limite infrieure (score 1) Limite suprieure (score 3 ou 4) Hors de lintervalle de poids Normale normal Amnorrhe Rgles rgulires Moins de 1 200 calories Repas normaux/rguliers
Plus dune fois par semaine Aucune frnsie alimentaire Plus dune fois par semaine Pas de vomissement Plus dune fois par semaine Pas de laxatifs Ne peut pas demeurer inactif Mauvaises Forte dpendance Pas de bons amis A quitt lcole/le travail Inadquate Inadquate Trs dprim Totale Perturbe Pas dhyperactivit Bonnes Sufsante Au moins deux bons amis Antcdents moyens bons Sufsante Apprcie les rapports sexuels Normale Aucune proccupation Normale
Lanalyse en composantes principales est idale pour cette situation, dans la mesure o la nalit de ltude est dtablir les relations entre les symptmes et les diffrentes classes de troubles du comportement alimentaire. En outre, lanalyse en composantes principales qualitatives est susceptible dtre plus utile que lanalyse en composantes principales classique car les symptmes sont nots sur une chelle ordinale.
Excution de lanalyse
An dexaminer correctement la structure de lvolution de la maladie pour chaque diagnostic, vous pouvez faire en sorte que les rsultats du tableau des centres de gravit projets soient disponibles en tant que donnes pour les diagrammes de dispersion. Pour ce faire, utilisez le systme de gestion des rsultats (OMS).
160 Chapitre 10 E Pour dmarrer une requte OMS, dans les menus, choisissez : Utilitaires > Panneau de configuration du systme de gestion des rsultats... Figure 10-18 Panneau de configuration du systme de gestion des rsultats
E Slectionnez loption Tableaux comme type de rsultat. E Slectionnez loption CATPCA comme commande. E Slectionnez loption Centres de gravit projets comme type de tableau. E Slectionnez loption Fichier dans le groupe Destinations de sortie, puis tapez
161 Analyse en composantes principales qualitatives Figure 10-19 Bote de dialogue Options
E Slectionnez loption Fichier de donnes IBM SPSS Statistics comme format de rsultat. E Tapez TableNumber_1 comme variable de numro de tableau. E Cliquez sur Poursuivre.
162 Chapitre 10 Figure 10-20 Panneau de configuration du systme de gestion des rsultats
E Cliquez sur Ajouter. E Cliquez sur OK, puis de nouveau sur OK pour conrmer la session OMS.
Le systme de gestion des rsultats est dsormais congur pour crire les rsultats du tableau des centres de gravit projets dans le chier projected_centroids.sav.
E Pour gnrer un rsultat de composants principaux qualitatifs pour cet ensemble de donnes,
163 Analyse en composantes principales qualitatives Figure 10-21 Bote de dialogue Niveau du codage optimal
E Slectionnez loption Certaines variables non nominales multiples dans le groupe Niveau du codage
optimal.
E Cliquez sur Dfinir. Figure 10-22 Bote de dialogue Composantes principales qualitatives
E Slectionnez les options allant de Poids corporel Perception du corps comme variables danalyse.
164 Chapitre 10 E Cliquez sur Dfinir lchelle et la pondration. Figure 10-23 Dfinir lchelle et la pondration
E Slectionnez loption Ordinal comme niveau de codage optimal. E Cliquez sur Poursuivre. E Slectionnez loption Interaction moment/diagnostic comme variable supplmentaire, puis cliquez sur Dfinir lchelle dans la bote de dialogue Composantes principales qualitatives. Figure 10-24 Bote de dialogue Dfinir lchelle
E Slectionnez loption Variables nominales multiples comme niveau de codage optimal. E Cliquez sur Poursuivre.
165 Analyse en composantes principales qualitatives Figure 10-25 Bote de dialogue Composantes principales qualitatives
E Slectionnez les options allant de Moment de lentrevue Numro de patient comme variables
dtiquetage.
E Cliquez sur Options.
E Choisissez la mthode dtiquetage des diagrammes Noms ou valeurs de variable. E Cliquez sur Poursuivre. E Cliquez sur Rsultat dans la bote de dialogue Composantes principales qualitatives.
E Slectionnez loption Coordonnes principales dans le groupe Tableaux. E Indiquez que vous souhaitez obtenir les valeurs affectes aux modalits pour la variable
moment/diagnostic.
E Incluez les modalits moment, diag et nombre. E Cliquez sur Poursuivre. E Cliquez sur Enregistrer dans la bote de dialogue Composantes principales qualitatives.
E Dans le groupe des variables transformes, slectionnez Enregistrer dans lensemble de donnes actif. E Cliquez sur Poursuivre. E Cliquez sur Objet dans la bote de dialogue Composantes principales qualitatives.
169 Analyse en composantes principales qualitatives Figure 10-29 Diagrammes dobjets et de variables
E Choisissez loption dtiquetage des objets Variable. E Slectionnez les options moment et diag comme variables dtiquetage des objets. E Cliquez sur Poursuivre. E Cliquez sur Modalit dans la bote de dialogue Composantes principales qualitatives.
E Indiquez que vous souhaitez obtenir les diagrammes de modalit pour la variable
moment/diagnostic.
E Indiquez que vous souhaitez obtenir les diagrammes de transformation pour les variables allant de
poids corps.
E Projetez les centres de moment/diagnostic sur frnsie alimentaire, atts et pro. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Composantes principales qualitatives.
La procdure aboutit des scores pour les sujets (de moyenne 0 et de variance unitaire) et des valeurs affectes aux modalits qui maximisent la corrlation des carrs des moyennes des scores de sujet et les variables transformes. Dans lanalyse actuelle, les valeurs affectes aux modalits ont t contraintes de manire reter les informations ordinales.
En dernier lieu, pour crire les informations du tableau des centres de gravit projets dans le chier projected_centroids.sav, vous devez mettre n la requte OMS. Afchez de nouveau le panneau de conguration du systme de gestion des rsultats.
Figure 10-31 Panneau de configuration du systme de gestion des rsultats
E Cliquez sur Fin. E Cliquez sur OK, puis de nouveau sur OK pour conrmer.
Diagrammes de transformation
Les diagrammes de transformation afchent le numro de modalit initial sur les axes horizontaux ; les axes verticaux donnent les quantications optimales.
Certaines variables, telles que Menstruation, ayant obtenu des transformations presque linaires, vous pouvez, dans cette analyse, les interprter comme des donnes numriques.
173 Analyse en composantes principales qualitatives Figure 10-33 Diagramme de transformation des antcdents scolaires/professionnels
Les quantications des autres variables, telles que Antcdents scolaires/professionnels, nont pas obtenu de transformations linaires et doivent tre interprtes au niveau de codage ordinal. La diffrence entre les deuxime et troisime modalits est beaucoup plus importante que celle entre les premire et deuxime modalits.
Une situation intressante se prsente dans les quantications de la frnsie alimentaire. La transformation obtenue est linaire pour les modalits 1 3, mais les valeurs quanties pour les modalits 3 et 4 sont gales. Ce rsultat montre que les scores 3 et 4 ne font pas de diffrences entre les patients et suggre que vous pouvez utiliser le niveau de codage numrique dans une solution deux composantes en recodant les scores 4 en 3.
Pour valuer ladquation du modle par rapport aux donnes, consultez le rcapitulatif du modle. Environ 47 % de la variance totale est explique par le modle deux composantes, raison de 35 % par la premire dimension et de 12 % par la deuxime. Par consquent, presque la moiti de la variabilit au niveau des diffrents objets est explique par le modle deux composantes.
Saturations
Pour dmarrer linterprtation des deux dimensions de votre solution, observez les corrlations entre composantes. Toutes les variables possdent une corrlation entre composantes positives dans la premire dimension, ce qui signie quil existe un facteur commun corrl positivement avec toutes les variables.
Figure 10-36 Diagramme des corrlations entre composantes
La deuxime dimension spare les variables. Les variables Frnsie alimentaire, Vomissement et Laxatifs forment un groupe possdant des corrlations entre composantes positives leves dans la deuxime dimension. Ces symptmes sont gnralement considrs comme reprsentatifs dun comportement boulimique. Les variables Emancipation par rapport la famille, Antcdents scolaires/professionnels, Attitude sexuelle, Poids corporel et Menstruations forment un autre groupe, dans lequel vous pouvez inclure les variables Perte de lapptit (inapptance) et Relations familiales car leurs vecteurs sont proches de la classe principale, et ces variables sont considres comme tant des symptmes de lanorexie (inapptance, poids, menstruation) ou de nature psychosociale (mancipation, antcdents scolaires/professionnels, attitude sexuelle, relations familiales). Les vecteurs de ce groupe sont orthogonaux (perpendiculaires) aux vecteurs de la frnsie alimentaire, du vomissement et des laxatifs, ce qui signie que cet ensemble de variables nest pas corrl avec lensemble des variables de la boulimie. Les variables Relations amicales, Etat mental (humeur) et Hyperactivit ne semblent pas sadapter correctement la solution. Vous pouvez le constater dans le diagramme en observant les longueurs de chaque vecteur. La longueur du vecteur dune variable donne correspond son ajustement, et ces variables possdent les vecteurs les plus courts. Dans le cadre dune solution deux composantes, vous retireriez probablement ces variables de lbauche dune symptomatologie des troubles du comportement alimentaire. Toutefois, elles peuvent mieux sintgrer dans une solution impliquant davantage de dimensions.
176 Chapitre 10
Les variables Comportement sexuel, Proccupation nourriture et poids et Perception du corps forment un autre groupe thorique de symptmes, lis la perception que le patient a de son corps. Tout en tant corrles avec les deux groupes de variables orthogonaux, ces variables possdent des vecteurs assez longs et sont troitement associes la premire dimension ; par consquent, elles peuvent fournir certaines informations utiles sur le facteur commun.
Coordonnes principales
Le schma suivant illustre un diagramme des coordonnes principales, dans lequel les sujets sont tiquets daprs leur modalit de diagnostic.
Figure 10-37 Diagramme des coordonnes principales tiquet en fonction du diagnostic
Ce diagramme ne permet pas dinterprter la premire dimension car les patients ne sont pas spars par diagnostic le long de celle-ci. Toutefois, il comprend certaines informations sur la deuxime dimension. Les sujets anorexiques (1) et les patients prsentant un trouble atypique du comportement alimentaire (4) forment un groupe, situ au-dessus des sujets souffrant dune forme de boulimie (2 et 3). Par consquent, la deuxime dimension spare les patients boulimiques des autres, comme la galement indiqu la section prcdente (les variables du groupe boulimique possdent des corrlations entre composantes positives leves dans la deuxime dimension). Cela est cohrent dans la mesure o les saturations des symptmes traditionnellement associs la boulimie possdent des valeurs leves dans la deuxime dimension.
Le schma suivant illustre un diagramme des coordonnes principales, dans lequel les sujets sont tiquets daprs le moment de leur diagnostic.
Figure 10-38 Coordonnes principales tiquetes en fonction du moment de lentrevue
Ltiquetage des coordonnes principales daprs le moment met en vidence que la premire dimension possde une relation au moment, car il semble y avoir une progression des moments de diagnostic entre les 1 essentiellement vers la gauche et les autres vers la droite. Vous pouvez lier les points dans le temps au sein de ce diagramme ; pour ce faire, enregistrez les coordonnes principales et crez un diagramme de dispersion en utilisant les scores de la dimension 1 sur laxe des x, les scores de la dimension 2 sur laxe des y et en dnissant des marques partir des numros de patient. La comparaison du diagramme des coordonnes principales tiquet en fonction du moment celui tiquet daprs le diagnostic peut vous donner une ide des objets inhabituels. Par exemple, dans le diagramme tiquet en fonction du moment, il existe un patient dont le diagnostic au moment 4 gure gauche de tous les autres points du diagramme. Cela est peu courant car, daprs la tendance gnrale des points, les moments les plus rcents gurent plus droite. Il est intressant de constater que ce point, dont le moment semble mal positionn, possde galement un diagnostic inhabituel, en ce sens que le patient est un anorexique dont les scores le placent dans le groupe des boulimiques. Le tableau des coordonnes principales indique quil sagit du patient 43, chez qui a t diagnostique une anorexie mentale, et dont les coordonnes principales sont indiques dans le tableau ci-aprs.
Table 10-4 Coordonnes principales du patient 43
Heure 1 2 3 4
178 Chapitre 10
Les scores du patient au moment 1 sont prototypiques des anorexiques : le score ngatif lev dans la dimension 1 correspond une mauvaise image du corps et le score positif dans la dimension 2 correspond des symptmes danorexie ou un comportement psychosocial perturb. Toutefois, la diffrence de la majorit des patients, la progression est faible ou nulle dans la dimension 1. Dans la dimension 2, il semble y avoir une certaine progression vers la normale (autour de 0, entre un comportement anorexique et boulimique), mais ensuite le patient prsente des symptmes de boulimie.
Une partie de la structure apparat dans ce diagramme : les modalits de diagnostic au point 1 dans le temps sparent nettement lanorexie mentale et le trouble atypique du comportement alimentaire de lanorexie mentale avec boulimie mentale et de la boulimie mentale aprs anorexie mentale dans la deuxime dimension. Au-del, il est un peu plus difcile de discerner les modles.
Toutefois, vous pouvez faciliter la lisibilit des modles en crant un diagramme de dispersion bas sur les quantications. Pour ce faire, dans les menus, choisissez :
Graphes > Gnrateur de diagrammes... Figure 10-40 Galerie Dispersion/Points
181 Analyse en composantes principales qualitatives Figure 10-42 Structures de lvolution des maladies
E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.
Une fois que vous avez reli les points de chaque modalit de diagnostic dans le temps, les motifs suggrent que la premire dimension est associe au moment et la deuxime au diagnostic, comme vous lavez prcdemment dtermin partir des diagrammes des coordonnes principales. Toutefois, ce diagramme indique aussi que, sur la dure, les maladies ont tendance se ressembler. En outre, pour tous les groupes, la progression est la plus forte entre les points 1 et 2 dans le temps ; les patients anorexiques prsentent un peu plus de progression entre les points 2 et 3, mais les autres groupes afchent peu de progression.
Pour que vous puissiez examiner les ventuelles volutions diffrentielles des maladies, les projections de Interaction moment/diagnostic sur Frnsie alimentaire, Attitude sexuelle et Proccupation nourriture et poids ont t calcules et reprsentes dans le schma ci-aprs.
Figure 10-44 Centres de gravit projets de Interaction moment/diagnostic sur Frnsie alimentaire, Attitude sexuelle et Proccupation nourriture et poids
Ce diagramme indique quau premier point dans le temps, la frnsie alimentaire symptomatique spare les patients boulimiques (2 et 3) des autres patients (1 et 4), que lattitude sexuelle spare les patients anorexiques et atypiques (1 et 4) des autres patients (2 et 3), et que la proccupation du corps ne spare pas vritablement les patients. Dans de nombreuses applications, ce diagramme sufrait pour dcrire la relation entre les symptmes et le diagnostic mais, en raison du caractre multiple des points dans le temps, limage perd de sa nettet.
184 Chapitre 10
Pour visualiser ces projections sur la dure, vous devez tre en mesure de reprsenter le contenu du tableau des centres de gravit projets. Cette opration est possible grce la requte OMS ayant enregistr ces informations dans le chier projected_centroids.sav.
Figure 10-45 Projected_centroids.sav
Les variables FrnsieAlimentaire, AttitudeSexuelle et ProccupationAlimentationPoids contiennent les valeurs des barycentres projets sur chacun des symptmes dintrt. Le numro dobservation (1 16) correspond linteraction moment/diagnostic. Vous devrez calculer de nouvelles variables permettant de distinguer les valeurs des moments de celles des diagnostics.
E A partir des menus, slectionnez : Transformer > Calculer la variable...
185 Analyse en composantes principales qualitatives Figure 10-46 Bote de dialogue Calculer la variable
E Rappelez la bote de dialogue Calculer la variable. E Tapez diagnostic comme variable de destination. E
E En dernier lieu, pour visualiser dans le temps les barycentres des moments de diagnostic projets
sur la frnsie alimentaire, afchez de nouveau le Gnrateur de diagrammes, puis cliquez sur le bouton Rinitialiser pour effacer les slections antrieures.
E Slectionnez la galerie Dispersion/Points et choisissez Diagramme de dispersion regroup. E
Slectionnez loption Barycentres projets sur Frnsie alimentaire comme variable de laxe y et loption moment comme variable de laxe x.
E Pour la dnition des couleurs, choisissez loption diagnostic. E Cliquez sur OK.
189 Analyse en composantes principales qualitatives Figure 10-50 Projection dans le temps des barycentres des moments de diagnostic sur la frnsie alimentaire
E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.
Concernant la frnsie alimentaire, il est manifeste que les groupes anorexiques prsentent des valeurs initiales diffrentes de celles des groupes boulimiques. Cette diffrence sestompe au l du temps, car les groupes anorexiques voluent trs peu tandis que les groupes boulimiques afchent une progression.
E Afchez de nouveau le Gnrateur de diagrammes. E Dslectionnez loption Barycentres projets sur Frnsie alimentaire comme variable de laxe y
191 Analyse en composantes principales qualitatives Figure 10-52 Projection dans le temps des barycentres des moments de diagnostic sur lattitude sexuelle
E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.
En ce qui concerne lattitude sexuelle, les quatre trajectoires sont plus ou moins parallles sur la dure et tous les groupes prsentent une progression. Toutefois, les scores des groupes boulimiques sont plus levs (meilleurs) que ceux du groupe anorexique.
E Afchez de nouveau le Gnrateur de diagrammes. E Dslectionnez loption Barycentres projets sur Attitude sexuelle comme variable de laxe y et
193 Analyse en composantes principales qualitatives Figure 10-54 Projection dans le temps des barycentres des moments de diagnostic sur la proccupation du corps
E Ensuite, pour relier les points, double-cliquez sur le graphique, puis cliquez sur longlet Ajouter une courbe dinterpolation dans lditeur de diagrammes. E Fermez lditeur de diagrammes.
La proccupation du corps est une variable qui reprsente les symptmes fondamentaux, partags par les quatre groupes. En dehors des patients atteints de troubles atypiques du comportement alimentaire, le groupe anorexique et les deux groupes boulimiques prsentent des niveaux trs similaires au dbut comme la n.
194 Chapitre 10
Lectures recommandes
Pour plus dinformations sur lanalyse des composantes principales qualitatives, reportez-vous aux documents suivants : De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, et J. J. Meulman. 2000. Macro and micro goal setting: In search of coherence. Applied Psychology, 49, . De Leeuw, J. 1982. Nonlinear principal components analysis. Dans : COMPSTAT Proceedings in Computational Statistics, Vienne: Physica Verlag. Eckart, C., et G. Young. 1936. The approximation of one matrix by another one of lower rank. Psychometrika, 1, . Gabriel, K. R. 1971. The biplot graphic display of matrices with application to principal components analysis. Biometrika, 58, . Gi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of Data Theory, University of Leiden. Gower, J. C., et J. J. Meulman. 1993. The treatment of categorical information in physical anthropology. International Journal of Anthropology, 8, . Heiser, W. J., et J. J. Meulman. 1994. Homogeneity analysis: Exploring the distribution of variables and their nonlinear relationships. Dans : Correspondence Analysis in the Social Sciences: Recent Developments and Applications, M. Greenacre, et J. Blasius, ds. New York: Academic Press. Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinear methods. Dans : International Encyclopedia of Statistics, W. H. Kruskal, et J. M. Tanur, ds. New York: The Free Press. Kruskal, J. B., et R. N. Shepard. 1974. A nonmetric variety of linear factor analysis. Psychometrika, 39, . Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations of the variables: Minimizing the sum of squares of the smallest eigenvalues. British Journal of Mathematical and Statistical Psychology, 46, . Meulman, J. J., et P. Verboon. 1993. Points of view analysis revisited: Fitting multidimensional structures to optimal distance components with cluster restrictions on the variables. Psychometrika, 58, . Meulman, J. J., A. J. Van der Kooij, et A. Babinec. 2000. New features of categorical principal components analysis for complicated data sets, including data mining. Dans : Classication, Automation and New Media, W. Gaul, et G. Ritter, ds. Berlin: Springer-Verlag. Meulman, J. J., A. J. Van der Kooij, et W. J. Heiser. 2004. Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc..
Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H. Verrips, S. P. Verloove-Vanhorick, et J. M. Wit. 2003. Changes can be studied when the measurement instrument is different at different time points. Health Services and Outcomes Research Methodology, 4, . Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. Dans : Psychological Scaling: Theory & Applications, H. Gulliksen, et S. Messick, ds. New York: John Wiley and Sons. Vlek, C., et P. J. Stallen. 1981. Judging risks and benets in the small and in the large. Organizational Behavior and Human Performance, 28, . Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. Londres: Lawrence Erlbaum Associates, Inc. Young, F. W., Y. Takane, et J. De Leeuw. 1978. The principal components of mixed measurement level multivariate data: An alternating least squares method with optimal scaling features. Psychometrika, 43, . Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, et J. J. Meulman. 2000. The role of parents and peers in the leisure activities of young adolescents. Journal of Leisure Research, 32, .
11
Chapitre
Lanalyse de corrlation canonique non linaire a pour but de dterminer le degr de ressemblance entre plusieurs groupes de variables. Comme dans lanalyse de corrlation canonique linaire, lobjectif est dvaluer autant que possible la variance dans les relations entre les groupes dans un espace comportant peu de dimensions. En revanche, contrairement lanalyse de corrlation canonique linaire, lanalyse de corrlation canonique non linaire ne suppose pas quun niveau dintervalle de mesure soit dni ou que les relations soient linaires. Autre diffrence importante : lanalyse de corrlation canonique non linaire tablit la similarit qui existe entre les groupes en comparant simultanment des combinaisons linaires des variables de chaque groupe avec un groupe inconnu, les coordonnes des objets.
Nom de variable ge
Etiquette de valeur 2025, 2630, 3135, 3640, 4145, 4650, 5155, 5660, 6165, 6670 Clibataire, Mari, Autre Aucun, Chat(s), Chien(s), Autre que chien ou chat, Plusieurs animaux domestiques Aucun, Telegraaf, Volkskrant, NRC, Autre Classique, New wave, Pop, Varit, Naime pas la musique Ville, Village, Campagne 05, 610, 1115 05, 610, 1115, 1620
Situation familiale Animaux domestiques possds Journal lu le plus souvent Musique prfre Voisinage prfr Rsultat du test mathmatique Rsultat du test linguistique
196
Cet ensemble de donnes est disponible dans le chier verd1985.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Les variables qui nous intressent ici sont les six premires ; elles sont rparties en trois groupes. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les animaux domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les autres variables ont un codage nominal simple. Pour cette analyse, il est ncessaire dutiliser une conguration initiale alatoire. Par dfaut, la conguration initiale est numrique. Toutefois, lorsque certaines variables sont traites comme des valeurs nominales simples sans possibilit de tri, il est prfrable dutiliser une conguration initiale alatoire. Cest le cas de la plupart des variables dans cette enqute.
E Slectionnez loption Certaines variables non nominales multiples dans le groupe Niveau du codage
optimal.
E Slectionnez Plusieurs dans le groupe Nombre de groupes de variables. E Cliquez sur Dfinir.
198 Chapitre 11 Figure 11-2 Bote de dialogue Analyse de corrlation canonique non linaire
E Slectionnez Age en annes et Situation familiale comme variables du premier groupe. E Slectionnez ge et cliquez sur Dfinir intervalle et chelle. Figure 11-3 Bote de dialogue Dfinir intervalle et chelle
E Entrez 10 comme valeur maximale pour cette variable. E Cliquez sur Poursuivre. E Slectionnez situatio, puis cliquez sur Dfinir intervalle et chelle dans la bote de dialogue Analyse
199 Analyse de corrlation canonique non linaire Figure 11-4 Bote de dialogue Dfinir intervalle et chelle
E Entrez 3 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, cliquez sur Suivant
deuxime groupe.
E Slectionnez animal domestique et cliquez sur Dfinir intervalle et chelle.
E Entrez 5 comme valeur maximale pour cette variable. E Slectionnez Variables nominales multiples comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, slectionnez informations, puis cliquez sur Dfinir intervalle et chelle. Figure 11-7 Bote de dialogue Dfinir intervalle et chelle
E Entrez 5 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, cliquez sur Suivant pour
201 Analyse de corrlation canonique non linaire Figure 11-8 Bote de dialogue Analyse de corrlation canonique non linaire
E Slectionnez Musique favorite et Prfrence de voisinage comme variables du troisime groupe. E Slectionnez musique, puis cliquez sur Dfinir intervalle et chelle. Figure 11-9 Bote de dialogue Dfinir intervalle et chelle
E Entrez 5 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse de corrlation canonique non linaire, slectionnez habitat, puis cliquez sur Dfinir intervalle et chelle.
E Entrez 3 comme valeur maximale pour cette variable. E Slectionnez loption Nominal simple comme chelle de mesure. E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse canonique non linaire, cliquez sur Options. Figure 11-11 Options
Afchage.
E Slectionnez les options Centres de classes et Transformations dans le groupe Diagramme. E Slectionnez loption Utiliser configuration initiale alatoire. E Cliquez sur Poursuivre.
203 Analyse de corrlation canonique non linaire E Dans la bote de dialogue Analyse canonique non linaire, cliquez sur OK.
Aprs la liste des variables incluant leurs niveaux de codage optimal, lanalyse de corrlation canonique nominale avec codage optimal gnre un tableau illustrant les effectifs des objets dans les modalits. Ce tableau savre essentiel en cas de donnes manquantes ; en effet, les modalits quasiment vides ont plus de chance dinuencer la solution. Cet exemple ne comporte aucune donne manquante. Une autre vrication prliminaire consiste tudier le diagramme de coordonnes des objets pour les valeurs loignes. Les valeurs loignes ont des quantications si diffrentes des autres objets quelles se situent la limite du diagramme, dominant ainsi une ou plusieurs dimensions. Vous pouvez grer les ventuelles valeurs loignes de deux manires. Vous pouvez simplement les retirer des donnes et excuter nouveau lanalyse de corrlation canonique non linaire. Ou vous pouvez essayer de recoder les rponses extrmes des objets loigns en fusionnant certaines modalits. Comme lillustre le diagramme de coordonnes des objets, les donnes de lenqute ne comportent aucune valeur loigne.
Figure 11-12 Coordonnes des objets
204 Chapitre 11
Rcapitulatif de lanalyse
Les valeurs dajustement et de perte vous renseignent sur ladquation entre lanalyse de corrlation canonique non linaire et les donnes quanties de manire optimale, en ce qui concerne lassociation entre les groupes. Le tableau rcapitulatif de lanalyse afche les valeurs dajustement, les valeurs de perte et les valeurs propres de cet exemple denqute.
Figure 11-13 Rcapitulatif de lanalyse
La perte est rpartie entre les dimensions et les groupes. Pour chaque dimension et groupe, la perte reprsente la proportion de variation des coordonnes dobjet qui ne peut pas tre reprsente par la combinaison pondre des variables du groupe. La perte moyenne est intitule moyenne . Dans cet exemple, la perte moyenne sur tous les groupes est de 0,464. La perte est plus importante pour la deuxime dimension que pour la premire. La valeur propre de chaque dimension est gale 1 moins la perte moyenne de la dimension ; la valeur propre indique la quantit de la relation rvle par chaque dimension. Les valeurs propres sajoutent lajustement total. Pour les donnes relatives Verdegaal, 0,801/1,536 = 52 % de lajustement rel sont attribuables la premire dimension. La valeur dajustement maximale est gale au nombre de dimensions. Si elle est obtenue, elle indique une relation parfaite. La valeur de perte moyenne sur tous les groupes et dimensions indique lcart entre la valeur dajustement maximale et lajustement rel. La valeur dajustement plus la valeur de perte moyenne sont gales au nombre de dimensions. Une similarit parfaite est trs rare et repose gnralement sur des aspects insigniants des donnes. On trouve galement parmi les outils statistiques trs utiliss, avec deux groupes de variables, la corrlation canonique. La corrlation canonique tant lie la valeur propre et ne fournissant par consquent aucune information supplmentaire, elle nest pas incluse dans les rsultats de lanalyse de corrlation canonique non linaire. Dans le cas de deux groupes de variables, on obtient la corrlation canonique par dimension laide de la formule suivante :
d correspondant au nombre de dimensions et E la valeur propre. Il est possible dtendre la corrlation canonique plus de deux groupes ; pour ce faire, utilisez la formule suivante :
d correspondant au nombre de dimensions, K au nombre de groupes et E la valeur propre. Dans notre exemple,
et
Poids et saturations :
Il existe galement une autre mesure dassociation : la corrlation multiple entre les combinaisons linaires de chaque groupe et les coordonnes des objets. Si un groupe ne contient aucune variable nominale multiple, vous pouvez calculer cette mesure en multipliant les pondrations et corrlations entre composantes de chaque variable du groupe, en ajoutant ces produits et en calculant la racine carre de la somme obtenue.
Figure 11-14 Poids
206 Chapitre 11
Ces chiffres donnent les pondrations et les corrlations entre composantes des variables de cet exemple. La corrlation multiple (R) est comme suit pour la premire somme pondre des variables codes de faon optimale (Age en annes et Situation familiale) avec la premire dimension des coordonnes des objets :
Pour chaque dimension, 1 perte = R2. Par exemple, dans le tableau rcapitulatif de lanalyse, 1 0,238 = 0,762, soit 0,873 au carr ( une erreur darrondi prs). Par consquent, les valeurs de perte faibles indiquent de fortes corrlations multiples entre les sommes pondres des variables codes de faon optimale et les dimensions. Les pondrations ne sont pas uniques pour les variables nominales multiples. Pour les variables nominales multiples, utilisez la formule 1 perte par groupe.
La perte unique indique la perte rsultant de la limitation des variables un seul groupe de quantications (cest--dire, nominal simple, ordinal ou nominal). Si la perte unique est leve, il est prfrable de traiter les variables comme des variables nominales multiples. Dans cet exemple, toutefois, les ajustements unique et multiple sont presque gaux, ce qui signie que les coordonnes multiples sont presque toutes situes sur une ligne droite, dans la direction indique par les pondrations. Lajustement multiple est gal la variance des coordonnes de modalit multiples pour chaque variable. Ces mesures sont analogues aux mesures de discrimination trouves dans lanalyse dhomognit. Vous pouvez consulter le tableau dajustement multiple pour connatre
les variables les plus discriminantes. Par exemple, reportez-vous au tableau dajustement multiple pour examiner les variables Situation familiale et Journal lu le plus souvent. Les valeurs dajustement, additionnes sur les deux dimensions, sont 1,122 pour Situation familiale et 0,911 pour Journal lu le plus souvent. Ces informations nous indiquent que la situation familiale dune personne a un plus grand pouvoir discriminant que le journal auquel elle est abonne. Lajustement unique correspond la pondration au carr de chaque variable ; il est gal la variance des coordonnes de modalit simples. Ainsi, les pondrations sont gales aux carts-types des coordonnes de modalit simples. En tudiant la manire dont lajustement unique est rparti entre les dimensions, on constate que la variable Journal lu le plus souvent est discriminante principalement sur la premire dimension et on constate que la variable Situation familiale est discriminante essentiellement sur la deuxime dimension. Autrement dit, les diffrentes modalits de Journal lu le plus souvent sont plus loignes dans la premire dimension que dans la deuxime, contrairement celles de Situation familiale. En revanche, la variable Age en annes a un pouvoir discriminant la fois dans la premire et la deuxime dimension ; la dispersion des modalits est donc identique sur les deux dimensions.
Saturations
Le schma ci-dessous reprsente le diagramme de corrlations entre composantes des donnes de lenqute. Lorsquil ne manque aucune donne, les corrlations entre composantes sont quivalentes aux corrlations de Pearson entre les variables quanties et les coordonnes des objets. La distance depuis lorigine de chaque point de variable est proche de limportance de cette variable. Les variables canoniques ne sont pas reportes ; elles peuvent toutefois tre reprsentes par des lignes horizontales et verticales traces via lorigine.
Figure 11-17 Corrlations entre composantes et variables initiales
208 Chapitre 11
Les relations entre les variables sont apparentes. Deux directions ne concident pas avec les axes horizontal et vertical. Lune des directions est dtermine par les variables Age en annes, Journal lu le plus souvent et Prfrence de voisinage. Lautre est dnie par les variables Situation familiale, Musique favorite et Animaux domestiques possds. La variable Animaux domestiques possds est une variable nominale multiple et est donc reprsente par deux points. Chaque quantication est interprte comme une variable unique.
Diagrammes de transformation
Les diffrents niveaux auxquels chaque variable peut tre code imposent des restrictions dans les quantications. Les diagrammes de transformation illustrent la relation entre les quantications et les modalits dorigine rsultant du niveau de codage optimal slectionn. Le diagramme de transformation de la variable Prfrence de voisinage, qui a t traite comme variable nominale, afche une forme en U, dans laquelle la modalit centrale reoit la plus petite quantication et les modalits extrmes, des valeurs identiques. Cette conguration indique une relation quadratique entre la variable dorigine et la variable transforme. Lutilisation dun autre niveau de codage optimal nest pas recommande pour la variable Prfrence de voisinage.
Figure 11-18 Diagramme de transformation de la variable Prfrence de voisinage (nominale)
Les quantications de Journal lu le plus souvent, en revanche, marquent une croissance entre les trois modalits dotes dobservations. La premire modalit reoit la plus faible quantication, la deuxime une valeur plus leve et la troisime reoit la valeur la plus leve. Bien que la variable soit code comme nominale, lordre des modalits est rcupr dans les quantications.
Figure 11-19 Diagramme de transformation de la variable Journal lu le plus souvent (nominale)
210 Chapitre 11
Le diagramme de transformation de la variable Age en annes afche une courbe en S. Les quatre plus jeunes modalits observes reoivent toutes la mme quantication ngative, tandis que les deux modalits les plus vieilles reoivent les mmes valeurs positives. Par consquent, il est possible de fusionner tous les groupes les plus jeunes dans une mme modalit (les moins de 50 ans) et de fusionner les deux modalits les plus ges en une seule. Toutefois, lgalit parfaite des quantications des groupes les plus jeunes indique quil nest peut-tre pas souhaitable de restreindre lordre des quantications celui des modalits dorigine. Puisque les quantications des groupes 2630, 3640 et 4145 ne peuvent pas tre infrieures la quantication du groupe 2025, ces valeurs sont alignes sur la mme valeur de borne. En autorisant ces valeurs tre infrieures la quantication du groupe le plus jeune (cest--dire, en considrant lge comme tant nominal), il est possible damliorer lajustement. Par consquent, considrer lge comme une variable ordinale ne semble pas appropri dans ce cas. En outre, en considrant lge comme une variable numrique, et en conservant donc les distances entre les modalits, il est possible de rduire considrablement lajustement.
Les modalits pour lesquelles aucune observation nest enregistre reoivent une quantication de 0. Pour la variable Age en annes, cela inclut les modalits 3135, 4650 et 5155. Ces modalits ne doivent pas ncessairement tre ordonnes avec les autres modalits et naffectent aucun calcul. Pour les variables nominales multiples, chaque modalit reoit une quantication diffrente sur chaque dimension. Pour tous les autres types de transformation, une modalit ne dispose que dune quantication, quel que soit le nombre de dimensions de la solution. Chaque ensemble de coordonnes de modalits simples reprsente lemplacement de la modalit sur une ligne dans lespace objet. Pour une modalit donne, les coordonnes sont gales la quantication multiplie par les pondrations de dimension de la variable. Par exemple, dans le tableau de la variable Age en annes, les coordonnes de modalits simples pour la modalit 56-60 (-0,142,
-0,165) correspondent la quantication (-0,209) multiplie par les pondrations de dimension (0,680, 0,789). Les coordonnes de modalit multiples des variables considres comme nominales simples, ordinales ou numriques, reprsentent les coordonnes des modalits de lespace objet, avant que les contraintes linaires ou ordinales soient appliques. Ces valeurs sont des rducteurs de perte non contraints. Pour les variables nominales multiples, ces coordonnes reprsentent les quantications des modalits. Les effets que peut avoir lapplication de contraintes aux relations entre les modalits et leurs quantications sont rvls par la comparaison des coordonnes de modalits simples avec des coordonnes de modalits multiples. Dans la premire dimension, les coordonnes de modalit multiples de la variable Age en annes diminuent jusqu la modalit 2 et restent plus ou moins au mme niveau jusqu la modalit 9, o se produit une brusque augmentation. Une conguration semblable est mise en vidence pour la seconde dimension. Ces relations sont retires des coordonnes de modalit simples, auxquelles est applique une contrainte ordinale. Dans les deux dimensions, les coordonnes sont alors non dcroissantes. Compte tenu de la structure diffrente des deux groupes de coordonnes, un traitement nominal semble plus appropri.
Lorsque vous demandez des diagrammes de reprsentation des barycentres, des diagrammes de barycentres et de barycentres projets distincts pour chaque variable tiquete par des tiquettes de valeurs sont galement crs. Les barycentres projets sont situs sur une ligne de lespace objet.
Figure 11-23 Barycentres et barycentres projets de Journal lu le plus souvent
Les barycentres rels sont projets sur des vecteurs dnis par les corrlations entre composantes. Ces vecteurs ont t ajouts aux diagrammes de reprsentation des barycentres an de faciliter la distinction entre barycentres projets et barycentres rels. Les barycentres projets se situent dans lun des quatre quadrants forms par le trac de deux lignes de rfrence perpendiculaires passant par lorigine. Linterprtation de la direction des variables nominales simples, ordinales
ou numriques est obtenue grce la position des barycentres projets. Par exemple, la variable Journal lu le plus souvent est indique comme tant nominale simple. Les barycentres projets mettent en opposition Volkskrant et NRC dun ct et Telegraaf de lautre.
Figure 11-24 Barycentres et barycentres projets de Age en annes
Le problme qui se pose pour la variable Age en annes est mis en vidence par les barycentres projets. Traiter Age en annes comme une variable ordinale implique que lordre des groupes dge soit conserv. Pour respecter cette restriction, tous les groupes dge en dessous de 45 sont projets sur le mme point. Sur la direction dnie par les variables Age en annes, Journal lu le plus souvent et Prfrence de voisinage, il nexiste aucune sparation entre les groupes les plus jeunes. Ce constat suggre que lon traite la variable comme tant nominale.
Pour comprendre les relations existant entre les variables, il convient de dterminer les modalits (valeurs) spciques des classes de modalits, dans les diagrammes de reprsentation des barycentres. Les relations existant entre les variables Age en annes, Journal lu le plus souvent et Prfrence de voisinage peuvent tre dnies grce aux angles suprieur droit et infrieur gauche des diagrammes. Dans langle suprieur droit, les groupes dge correspondent aux rpondants les plus gs ; ces derniers lisent le Telegraaf et prfrent vivre dans un village. Dans langle infrieur gauche de chaque diagramme, il apparat que les rpondants les plus jeunes jusquaux rpondants dge moyen lisent Volkskrant ou NRC, et veulent vivre la campagne ou en ville. Il est nanmoins difcile de diffrencier les groupes les plus jeunes. Le mme type dinterprtation peut tre appliqu lautre direction (Musique favorite, Situation familiale et Animaux domestiques possds), en tudiant cette fois les angles suprieur gauche et infrieur droit des diagrammes de reprsentation des barycentres. Dans langle suprieur gauche, il apparat que les personnes clibataires ont souvent des chiens et aiment la musique New wave. Les personnes maries et la modalit des autres situations familiales ont des chats ; le premier groupe prfre la musique classique et le dernier naime pas la musique.
Autre analyse
Compte tenu des rsultats de lanalyse, considrer la variable Age en annes comme tant ordinale ne semble pas appropri. Bien que Age en annes soit mesur un niveau ordinal, ses relations avec les autres variables ne sont pas monotones. Pour tudier les effets dun changement du niveau de codage optimal en niveau de codage nominal simple, relancez lanalyse.
groupe.
E Slectionnez ge et cliquez sur Dfinir intervalle et chelle. E Dans la bote de dialogue Dnir intervalle et chelle, slectionnez Nominale simple comme
intervalle de codage.
E Cliquez sur Poursuivre. E Dans la bote de dialogue Analyse canonique non linaire, cliquez sur OK.
Les valeurs propres dune solution deux dimensions sont respectivement 0,806 et 0,757, avec un ajustement total de 1,564.
Figure 11-26 Valeurs propres dune solution deux dimensions
Les tableaux dajustement multiple et dajustement unique montrent que la variable Age en annes a toujours un fort pouvoir discriminant, comme lillustre la somme des valeurs dajustement multiple. Toutefois, contrairement aux prcdents rsultats, lexamen des valeurs dajustement unique rvle que ce pouvoir discriminant concerne principalement la deuxime dimension.
Figure 11-27 Partitionnement des ajustements et des pertes
Reportez-vous au diagramme de transformation pour la variable Age en annes. Les quantications dune variable nominale nont pas de restriction ; par consquent, la tendance non dcroissante afche lorsque la variable Age en annes tait traite de manire ordinale nest plus prsente. Il y a une diminution jusqu 40 ans et une augmentation au-del de 40 ans, qui correspondent
216 Chapitre 11
une relation en U (quadratique). Les deux modalits les plus ges reoivent toujours les mmes scores, et les analyses suivantes risquent de ncessiter une combinaison de ces modalits.
Figure 11-28 Diagramme de transformation de Age en annes (nominale)
Le diagramme de transformation de la variable Prfrence de voisinage est afch ici. Considrer Age en annes comme une variable nominale naffecte en aucun cas les quantications de la variable Prfrence de voisinage. La modalit centrale reoit la plus petite quantication, et les modalits extrmes reoivent des valeurs positives leves.
Figure 11-29 Diagramme de transformation de la variable Prfrence de voisinage (ge, nominale)
218 Chapitre 11
On remarque un changement dans le diagramme de transformation de la variable Journal lu le plus souvent. On pouvait noter auparavant une augmentation dans les quantications, ce qui pouvait suggrer un traitement ordinal de cette variable. Toutefois, en traitant Age en annes comme une variable nominale, on limine cette tendance des quantications lies la presse.
Figure 11-30 Diagramme de transformation de la variable Journal lu le plus souvent (ge, nominale)
Il sagit du diagramme de reprsentation des barycentres de la variable Age en annes. Remarque : les modalits napparaissent pas toutes dans lordre chronologique sur la ligne joignant les barycentres projets. Le groupe 2025 est situ au centre plutt qu la n. La rpartition des modalits savre nettement meilleure que dans lexemple de traitement ordinal prsent ci-dessus.
Figure 11-31 Barycentres et barycentres projets de Age en annes (nominale)
Il est prsent possible de fournir une interprtation des groupes les plus jeunes, partir du diagramme de reprsentation des barycentres. Les modalits Volkskrant et NRC sont plus loignes que dans lanalyse prcdente, ce qui permet de fournir une interprtation distincte pour chacune delles. Les groupes dont les personnes sont ges entre 26 et 45 ans lisent Volkskrant et prfrent vivre la campagne. Les groupes dge 2025 et 5660 lisent NRC ; le premier groupe prfre vivre en ville et le deuxime la campagne. Les groupes les plus gs lisent le Telegraaf et prfrent vivre dans un village.
220 Chapitre 11
Linterprtation de lautre direction (Musique favorite, Situation familiale et Animaux domestiques possds) reste quasiment inchange par rapport la prcdente analyse. La seule diffrence nette est que les personnes ayant rpondu Autre pour la situation familiale ont soit un chat, soit aucun animal domestique.
Figure 11-32 Barycentres tiquets par des variables (ge, nominal)
Crez autant de groupes que possible. Placez une variable importante, que vous souhaitez valuer, toute seule dans un groupe distinct. Regroupez ensemble les variables indpendantes. En prsence de nombreuses variables indpendantes, essayez de les rpartir dans diffrents groupes. Placez une variable nominale multiple toute seule dans un groupe distinct. Si des variables prsentent une forte corrlation entre elles et que vous ne souhaitez pas que cette relation inuence la solution, placez-les ensemble dans le mme groupe.
Lectures recommandes
Pour plus dinformations sur lanalyse de corrlation canonique non linaire, reportez-vous aux documents suivants : Carroll, J. D. 1968. Generalization of canonical correlation analysis to three or more sets of variables. Dans : Proceedings of the 76th Annual Convention of the American Psychological Association, 3, Washington, D.C.: American Psychological Association. De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd d. Leiden: DSWO Press. Horst, P. 1961. Generalized canonical correlations and their applications to experimental data. Journal of Clinical Psychology, 17, . Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, . Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika, 58, . Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques. Leiden: DSWO Press. Van der Burg, E., et J. De Leeuw. 1983. Nonlinear canonical correlation. British Journal of Mathematical and Statistical Psychology, 36, . Van der Burg, E., J. De Leeuw, et R. Verdegaal. 1988. Homogeneity analysis with k sets of variables: An alternating least squares method with optimal scaling features. Psychometrika, 53, . Verboon, P., et R. A. Van der Lans. 1994. Robust canonical discriminant analysis. Psychometrika, 59, .
12
Chapitre
Un tableau des correspondances est tout tableau deux entres dont les cellules contiennent une certaine mesure de correspondance entre les lignes et les colonnes. La mesure de correspondance peut tre toute indication de la similarit, du rapport, de la confusion, de lassociation ou de linteraction entre les variables de ligne et de colonne. Un type trs courant de tableau des correspondances est le tableau crois, dont les cellules contiennent des effectifs. La procdure de tableaux croiss permet dobtenir facilement de tels tableaux. Toutefois, un tableau crois ne fournit pas toujours une image claire de la nature de la relation entre les deux variables. Cela est particulirement vrai si les variables dintrt sont nominales (sans ordre ou rang inhrent) et quelles contiennent de nombreuses modalits. Le tableau crois peut indiquer que les effectifs observs par cellule diffrent sensiblement des effectifs prvus dans un tableau de profession et de crale pour le petit djeuner, mais il peut tre difcile de crois discerner les groupes professionnels qui prsentent des gots similaires ou ce que sont ces gots. Lanalyse des correspondances vous permet dexaminer graphiquement la relation entre deux variables nominales dans un espace multidimensionnel. Elle calcule les coordonnes principales des colonnes et des lignes et gnre des diagrammes bass sur les scores. Les modalits similaires apparaissent proches les unes des autres dans les diagrammes. Ainsi, il est facile de reprer les modalits similaires dune variable ou les modalits lies entre les deux variables. En outre, la procdure de lanalyse des correspondances vous permet dajuster des points supplmentaires dans lespace dni par les points actifs. Si lordre des modalits en fonction de leurs scores est indsirable ou paradoxal, vous pouvez imposer des restrictions dordre en contraignant les scores de certaines modalits tre gaux. Par exemple, nous pouvons imaginer que la variable consommation de tabac ayant pour modalits non-fumeur, lger fumeur, fumeur moyen et gros fumeur possde des scores correspondant cet ordre. Toutefois, si lanalyse classe les modalits dans lordre suivant : non-fumeur, lger fumeur, gros fumeur et fumeur moyen, le fait de contraindre les scores de gros fumeur et fumeur moyen tre gaux protge lordre des modalits dans leurs scores. Linterprtation de lanalyse des correspondances en matire de distances dpend de la mthode de normalisation utilise. La procdure danalyse des correspondances permet danalyser les diffrences entre les modalits dune variable ou celles entre les variables. Selon la normalisation par dfaut, elle analyse les diffrences entre les variables de ligne et de colonne. Lalgorithme danalyse des correspondances autorise de nombreux types danalyse. Le centrage des lignes et des colonnes et lutilisation de distances Khi-deux relvent de lanalyse de correspondance standard. Toutefois, lutilisation dautres options de centrage combines avec des distances euclidiennes permet de varier la reprsentation dune matrice dans un espace de petite dimension.
222
Trois exemples seront prsents. Le premier utilise un tableau des correspondances relativement rduit et illustre les concepts inhrents lanalyse des correspondances. Le deuxime exemple illustre une application marketing. Le dernier exemple utilise un tableau de distances dans une approche de positionnement multidimensionnel.
Normalisation
La normalisation permet de rpartir linertie sur les coordonnes principales des colonnes et des lignes. Certains aspects de la solution danalyse des correspondances, tels que les valeurs singulires, linertie par dimension et les contributions, ne changent pas dune normalisation lautre. Les coordonnes principales des colonnes et des lignes et leurs variances sont affectes. Lanalyse des correspondances peut rpartir linertie de plusieurs faons. Les trois faons les plus courantes sont la rpartition sur les coordonnes principales des lignes uniquement, la rpartition sur les coordonnes principales des colonnes uniquement ou la rpartition symtrique sur, la fois, les coordonnes principales des lignes et les coordonnes principales des colonnes.
Principale en ligne : Dans la normalisation principale en ligne, les distances euclidiennes entre
les points des lignes se rapprochent des distances Khi-deux entre les lignes du tableau des correspondances. Les scores des lignes correspondent la moyenne pondre des scores des colonnes. Les coordonnes principales des colonnes sont standardises de manire avoir une somme pondre des carrs des distances par rapport au centre gale 1. Dans la mesure o cette mthode maximise les distances entre les modalits de ligne, vous devez utiliser la normalisation principale en ligne si vous avez essentiellement lintention dobserver les diffrences entre les modalits de la variable de ligne.
Principale en colonne : Par ailleurs, vous pouvez approximer les distances Khi-deux entre les colonnes du tableau des correspondances. Dans ce cas, les coordonnes principales des colonnes doivent correspondre la moyenne pondre des coordonnes principales des lignes. Les coordonnes principales des lignes sont standardises de manire avoir une somme pondre des carrs des distances par rapport au centre gale 1. Cette mthode maximise les distances entre les modalits de colonnes et vous devez lutiliser si vous avez essentiellement lintention dobserver les diffrences entre les modalits de la variable de colonne. Symtrique : En outre, vous pouvez traiter les lignes et les colonnes de manire symtrique. Cette
normalisation rpartit linertie de faon gale sur les coordonnes des lignes et des colonnes. Dans ce cas, ni les distances entre les points des lignes ni celles entre les points des colonnes ne sont des approximations de distances Khi-deux. Utilisez cette mthode si vous envisagez essentiellement dexaminer les diffrences ou les similitudes entre les deux variables. Gnralement, cette mthode est privilgier pour raliser des diagrammes doubles.
Principale. Une quatrime option, la normalisation principale, permet de rpartir linertie deux
fois dans la solution une fois sur les coordonnes des lignes et une fois sur celles des colonnes. Vous devez utiliser cette mthode si vous souhaitez examiner les distances entre les points des lignes et celles entre les points des colonnes sparment, sans vouloir analyser la relation entre les points lignes et colonnes. Les diagrammes doubles ntant pas appropris pour cette option de normalisation, ils ne sont pas disponibles si vous avez spci la mthode de normalisation principale.
224 Chapitre 12
Attribut image
Etiquette
Attribut image produit non allg plat aux hommes marque sud-australienne marque traditionnelle/dmode marque de luxe marque bio produit fortement cafin nouvelle marque marque pour personnes sduisantes marque able marque populaire
Etiquette fait grossir hommes Australie du sud traditionnel luxe bio cafine nouveau sduisant able populaire
bon remde contre la gueule remde de bois produit allg/faible en allg calories marque ciblant les enfants enfants marque de la classe ouvrire classe ouvrire produit fort en got/lger en got marque impopulaire marque pour personnes obses/laides trs frais marque pour jeunes cadres dynamiques produit nourrissant marque pour femmes marque secondaire lger en got impopulaire laid frais jeunes cadres dynamiques nourrissant femmes secondaire
Dans un premier temps, vous allez vous concentrer sur les liens unissant les attributs et sur ceux unissant les marques. Lutilisation de la normalisation principale rpartit linertie totale une fois sur les lignes et une fois sur les colonnes. Bien que cela empche linterprtation des diagrammes doubles, vous pouvez examiner les distances entre les modalits de chaque variable.
Excution de lanalyse
E La conguration des donnes implique que les observations soient pondres par la variable
225 Analyse des correspondances Figure 12-1 Bote de dialogue Pondrer les observations
E Pondrez les observations par la variable freq. E Cliquez sur OK. E Pour obtenir une solution initiale dans cinq dimensions en recourant la normalisation principale,
E Slectionnez loption image comme variable de ligne. E Cliquez sur Dfinir intervalle.
226 Chapitre 12 Figure 12-3 Bote de dialogue Dfinir lintervalle de la variable en ligne
E Tapez 1 comme valeur minimale. E Tapez 23 comme valeur maximale. E Cliquez sur Mettre jour. E Cliquez sur Poursuivre. E Slectionnez loption marque comme variable de colonne. E Cliquez sur loption Dfinir intervalle dans la bote de dialogue Analyse des correspondances. Figure 12-4 Bote de dialogue Dfinir lintervalle de la variable en colonne
227 Analyse des correspondances E Cliquez sur Mettre jour. E Cliquez sur Poursuivre. E Cliquez sur loption Modle dans la bote de dialogue Analyse des correspondances. Figure 12-5 Bote de dialogue Modle
E Slectionnez loption Principale comme mthode de normalisation. E Cliquez sur Poursuivre. E Cliquez sur le bouton Diagrammes dans la bote de dialogue Analyse des correspondances.
E Slectionnez les options Points lignes et Points colonnes dans le groupe Diagrammes de dispersion. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Analyse des correspondances.
Nombre de dimensions
Linertie par dimension indique la dcomposition de linertie totale le long de chaque dimension. Deux dimensions reprsentent 83 % de linertie totale. Lajout dune troisime dimension augmente linertie prise en compte de 8,6 % uniquement. Par consquent, vous optez pour lutilisation dune reprsentation bidimensionnelle.
Contributions
Les caractristiques des points des lignes montrent les contributions des points des lignes linertie des dimensions et les contributions des dimensions linertie des points des lignes. Si tous les points contribuent de faon gale linertie, les contributions ont pour valeur 0,043. Les points bio et allg contribuent de faon substantielle linertie de la premire dimension. Les points hommes et able sont les lments qui contribuent le plus linertie de la deuxime dimension. Les deux points laid et frais contribuent trs peu aux deux dimensions.
Figure 12-8 Contributions des attributs
230 Chapitre 12
Deux dimensions contribuent sensiblement linertie de la plupart des points des lignes. Les contributions importantes de la premire dimension aux points bio, nouveau, sduisant, allg, nourrissant et femmes indiquent que ces points sont trs bien reprsents dans une dimension. Par consquent, les dimensions plus leves contribuent peu linertie de ces points, qui gurent trs prs de laxe horizontal. La deuxime dimension contribue essentiellement aux points hommes, luxe et able. Les deux dimensions contribuent trs peu linertie pour les points Australie du sud et laid, si bien que ceux-ci sont faiblement reprsents. Les caractristiques des points des colonnes montrent les contributions impliquant les points des colonnes. Les marques CC et DD contribuent le plus la premire dimension, tandis que les marques EE et FF expliquent une large part de linertie de la deuxime dimension. Les marques AA et BB contribuent trs peu aux deux dimensions.
Figure 12-9 Contributions des marques
Dans les deux dimensions, toutes les marques sauf BB sont bien reprsentes. Les marques CC et DD sont bien reprsentes dans une dimension. La deuxime dimension reprsente les parts les plus importantes des marques EE et FF. La marque AA est bien reprsente dans la premire dimension, mais elle ne contribue pas sensiblement cette dimension.
Diagrammes
Le diagramme des points des lignes montre que les points frais et laid sont trs proches de lorigine, ce qui indique quils diffrent peu du prol de ligne moyen. Trois classications gnrales mergent. Situs dans la partie suprieure gauche du diagramme, les points able, hommes et classe ouvrire sont tous similaires les uns aux autres. La partie infrieure gauche contient les points lger en got, non allg, enfants et luxe. A loppos, les points bio, allg, nourrissant et nouveau sont regroups sur le ct droit du diagramme.
231 Analyse des correspondances Figure 12-10 Diagramme dattributs dimage (normalisation principale)
Dans le diagramme des points des colonnes, toutes les marques tant loignes de lorigine, aucune delles nest similaire au centre global. Les marques CC et DD sont regroupes droite, tandis que les marques BB et FF sont regroupes dans la moiti infrieure du diagramme. Les marques AA et EE ne sont similaires aucune autre marque.
Figure 12-11 Diagramme de marques (normalisation principale)
232 Chapitre 12
Normalisation symtrique
Comment les marques sont-elles lies aux attributs dimage ? La normalisation principale ne peut pas traiter ces relations. Pour dterminer les liens entre les variables, utilisez la normalisation symtrique. Au lieu de rpartir linertie deux fois (comme dans la normalisation principale), la normalisation symtrique la divise de faon gale sur les lignes et sur les colonnes. Les distances entre les modalits dune variable ne peuvent pas tre interprtes, mais celles entre les modalits de diffrentes variables sont signicatives.
Figure 12-12 Bote de dialogue Modle
E Pour gnrer la solution suivante laide de la normalisation symtrique, afchez de nouveau la bote de dialogue Analyse des correspondances, puis cliquez sur Modle. E Slectionnez loption Symtrique comme mthode de normalisation. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Analyse des correspondances.
Dans la partie suprieure gauche du diagramme double obtenu, la marque EE est la seule marque solide, associe la classe ouvrire et plaisant aux hommes. La marque AA est la plus populaire. En outre, elle est perue comme tant la plus fortement cafine. Les marques lgres en got et
non allges sont BB et FF. Les marques CC et DD, tout en tant perues comme nouvelles et saines, sont les plus impopulaires.
Figure 12-13 Diagramme double des marques et des attributs (normalisation symtrique)
Pour une interprtation plus approfondie, vous pouvez dessiner une ligne passant par lorigine et les deux attributs dimage hommeset jeunes cadres dynamiques, puis projeter les marques sur cette ligne. Les deux attributs sont opposs lun lautre, ce qui indique que le modle dassociation des marques pour hommes est invers par rapport au modle pour jeunes cadres dynamiques. Autrement dit, les hommes sont le plus frquemment associs la marque EE et le moins frquemment la marque CC, tandis que les jeunes cadres dynamiques sont le plus frquemment associs la marque CC et le moins frquemment la marque EE.
Lectures recommandes
Pour plus dinformations sur lanalyse des correspondances, reportez-vous aux documents suivants : Fisher, R. A. 1938. Statistical methods for research workers. Edimbourg: Oliver and Boyd. Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics, 10, . Gilula, Z., et S. J. Haberman. 1988. The analysis of multivariate contingency tables by restricted canonical and restricted association models. Journal of the American Statistical Association, 83, .
13
Chapitre
Lobjectif de lanalyse de correspondance multiple, galement connue sous le nom danalyse dhomognit, est de rechercher les quantications optimales dans la mesure o les modalits sont le plus possible spares les unes des autres. Les objets de la mme modalit doivent donc tre reprsents proches les uns des autres et les objets de modalits diffrentes doivent tre reprsents aussi loigns que possible. Le terme homognit fait galement rfrence au fait que lanalyse est dautant plus russie que les variables sont homognes, cest--dire lorsquelles partitionnent les objets en classes ayant les mmes modalits ou des modalits similaires.
ltiquette Variable Filetage Forme de tte Indentation de la tte Forme tige Longueur en demi-pouces Cuivre Objet
Etiquette de valeur Yes_Thread, No_Thread Plate, Creuse, Cnique, Arrondie, Cylindrique Aucune, Cruciforme, Fendue pointe, plate 1/2_in, 1_in, 1_1/2_ in, 2_in, 2_1/2_in Yes_Br, Not_Br broquette, clou1, clou2, clou3, clou4, clou5, clou6, clou7, clou8, vis1, vis2, vis3, vis4, vis5, boulon1, boulon2, boulon3, boulon4, boulon5, boulon6, broquette1, broquette2, cloub, visb
234
Excution de lanalyse
E Pour obtenir une analyse de correspondance multiple, partir des menus, slectionnez : Analyse > Rduction des dimensions > Codage optimal Figure 13-1 Bote de dialogue Niveau du codage optimal
E Assurez-vous que les options Toutes les variables sont nominales multiples et Un groupe sont slectionnes, puis cliquez sur Dfinir.
236 Chapitre 13 Figure 13-2 Bote de dialogue Analyse des correspondances multiples
E Slectionnez Filetage comme variable danalyse via Longueur en demi-pouces. E Slectionnez objet comme variable dtiquetage. E Dans le groupe Diagrammes, cliquez sur Objet.
237 Analyse de correspondance multiple Figure 13-3 Bote de dialogue Diagrammes dobjets
E Choisissez loption dtiquetage des objets Variable. E Slectionnez les variables dtiquetage letage objet. E Cliquez sur Continuer, puis sur Variable dans le groupe Diagrammes de la bote de dialogue
E Appliquez lopration Joindre les diagrammes de modalits aux options allant de letage jusqu
longueur.
E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Analyse des correspondances multiples.
Presque toute la variance des donnes est reprsente par la solution : 62,1 % par la premire dimension et 36,8 % par la deuxime. Les deux dimensions offrent une interprtation en matire de distances. Si une variable a un fort pouvoir discriminant, les objets seront proches des modalits auxquelles ils appartiennent. Idalement, les objets de la mme modalit seront proches les uns des autres (ils auront des coordonnes similaires) et les modalits de variables diffrentes seront proches si elles appartiennent aux mmes objets (deux objets qui ont des coordonnes similaires pour une variable doivent galement tre proches lun de lautre pour les autres variables de la solution).
Coordonnes principales
Aprs avoir analys le rcapitulatif des modles, vriez les coordonnes des objets. Vous pouvez indiquer une ou plusieurs variables pour tiqueter le diagramme de coordonnes des objets. Chaque variable dtiquetage gnre un diagramme distinct tiquet avec les valeurs de la variable. Nous vrierons le diagramme des coordonnes dobjets tiquet laide de lobjet de variable. Il sagit simplement dune variable didentication des observations qui na t utilise dans aucun calcul. La distance sparant un objet de lorigine rete la variation du modle de rponse moyenne . Ce modle de rponse moyenne correspond la modalit la plus frquente de chaque variable. Les objets dont de nombreuses descriptives correspondent aux modalits les plus frquentes se trouvent ct de lorigine. A linverse, les objets qui disposent de descriptives uniques sont loin de lorigine.
240 Chapitre 13 Figure 13-6 Diagramme de coordonnes des objets tiquetes avec la variable objet
Si vous observez le diagramme, vous constatez que la premire dimension (laxe horizontal) distingue les vis et boulons (qui ont des letages) des clous et broquettes (qui nont pas de letage). En effet, les vis et les boulons se trouvent une extrmit de laxe horizontal alors que les clous et les broquettes sont lautre extrmit. Dans une moindre mesure, la premire dimension spare galement les boulons (qui ont un fond plat) de tous les autres objets (qui ont un fond pointu). La deuxime dimension (laxe vertical) semble sparer VIS1 et CLOU6 de tous les autres objets. VIS1 et CLOU6 partagent des valeurs identiques en ce qui concerne la longueur des variables (ce sont les objets les plus longs des donnes). De plus, VIS1 est beaucoup plus loin de lorigine que les autres objets, ce qui laisse supposer que, dans lensemble, de nombreuses descriptives de cet objet ne sont pas partages par les autres objets. Le diagramme de coordonnes des objets est plus particulirement utile pour rechercher les valeurs loignes. La variable VIS1 peut tre considre comme une valeur loigne. Nous tudierons ultrieurement ce quil advient si vous supprimez cet objet.
Mesures de discrimination
Avant dtudier le reste des diagrammes de coordonnes des objets, vrions si les mesures de discrimination sont conformes aux propos prcdents. En ce qui concerne les variables, une mesure de discrimination, pouvant tre considre comme une corrlation entre composantes, est calcule pour chaque dimension. Cette mesure est galement la variance de la variable quantie de cette dimension. La valeur maximale 1 est atteinte si les coordonnes dobjet font partie de groupes mutuellement exclusifs et si toutes les coordonnes dobjets dune modalit sont identiques. (Remarque : La valeur de cette mesure peut tre suprieure 1 si des donnes sont manquantes.) Des mesures de discrimination importantes correspondent une rpartition tendue parmi les modalits de la variable et indiquent par consquent un degr de discrimination lev entre les modalits dune variable le long de la dimension concerne.
La moyenne des mesures de discrimination dune dimension est gale au pourcentage de variance indiqu pour cette dimension. Par consquent, les dimensions sont tries en fonction de la discrimination moyenne. La premire dimension dispose de la discrimination moyenne la plus leve, la deuxime dimension dispose de la deuxime discrimination moyenne la plus leve, et ainsi de suite pour toutes les dimensions de la solution.
Figure 13-7 Diagramme des mesures de discrimination
Comme le diagramme de coordonnes des objets, le diagramme des mesures de discrimination indique que la premire dimension est lie aux variables Filetage et Forme tige. Ces variables disposent de mesures de discrimination leves sur la premire dimension et de mesures de discrimination limites sur la deuxime. Par consquent, pour ces deux variables, les modalits sont loignes les unes des autres le long de la premire dimension uniquement. La valeur de la variable Longueur en demi-pouces est leve sur la deuxime dimension, mais faible sur la premire. La longueur est donc lobjet le plus proche de la deuxime dimension. Conformment lobservation du diagramme de coordonnes des objets, la deuxime dimension semble sparer les objets les plus longs des autres objets. Les valeurs des variables Indentation de la tte et Forme de tte sont relativement leves sur les deux dimensions, ce qui indique une discrimination dans les deux premires dimensions. La variable Cuivre, trs proche de lorigine, ne fait aucune distinction dans les deux premires dimensions. Ceci est logique tant donn que tous les objets peuvent tre en cuivre ou dans un autre matriau.
242 Chapitre 13
Les diagrammes de valeurs affectes aux modalits offrent un autre mode dafchage de la discrimination des variables qui peut identier les relations entre les modalits. Dans ce diagramme, les coordonnes des modalits de chaque dimension sont afches. Vous pouvez donc dterminer les modalits similaires pour chaque variable.
Figure 13-8 Valeurs affectes aux modalits
La variable Longueur en demi-pouces compte cinq modalits, dont trois sont regroupes prs de la partie suprieure du diagramme. Les deux autres modalits se trouvent dans la moiti infrieure du diagramme, la modalit 2_1/2_in se trouvant trs loin du groupe. La discrimination leve de longueur le long de la dimension 2 est due cette modalit qui est trs diffrente des autres modalits de longueur. De la mme faon, pour la variable Forme de tte, la modalit CRUCIFORME est trs loin des autres modalits et gnre une mesure de discrimination leve le long de la deuxime dimension. Il est impossible dillustrer ces modles dans un diagramme de mesures de discrimination. La rpartition des valeurs affectes aux modalits dune variable rete la variance et indique le degr lev de discrimination de cette variable dans chaque dimension. En ce qui concerne la dimension 1, les modalits de la variable Filetage sont loignes les unes des autres. Cependant, le long de la dimension 2, les modalits de cette variable sont trs proches les unes des autres. Par consquent, le degr de discrimination de la variable Filetage est plus lev dans la dimension 1 que dans la dimension 2. En revanche, les modalits de la variable Forme de tte sont loignes les unes des autres le long des deux dimensions, ce qui laisse supposer que le degr de discrimination de cette variable est lev dans les deux dimensions. Non seulement le diagramme de valeurs affectes aux modalits dtermine le mode de discrimination et les dimensions le long desquelles une variable a un pouvoir discriminant, mais il compare galement la discrimination des variables. Une variable ayant des modalits loignes les unes des autres a un pouvoir discriminant plus lev quune variable comportant des modalits proches les unes des autres. Par exemple, le long de la dimension 1, les deux modalits de la variable Cuivre sont plus proches lune de lautre que les deux modalits de la variable Filetage, ce qui indique que la variable Filetage a un pouvoir discriminant plus lev que la variable Cuivre
le long de cette dimension. Cependant, le long de la dimension 2, les distances sont trs similaires, ce qui laisse supposer que ces variables ont un pouvoir discriminant identique le long de cette dimension. Le diagramme des mesures de discrimination abord ci-dessus identie les mmes relations laide de variances retant la rpartition des modalits.
Le diagramme tiquet avec la variable Filetage indique que la premire dimension spare parfaitement Yes_Thread et No_Thread. Tous les objets comportant des letages ont des coordonnes dobjet ngatives, alors que tous les objets sans letage ont des coordonnes dobjet positives. Bien que les deux modalits ne forment pas des groupes compacts, la diffrenciation parfaite entre ces modalits est gnralement considre comme un bon rsultat.
244 Chapitre 13 Figure 13-10 Coordonnes des objets tiquetes avec la variable Forme de tte
Le diagramme tiquet avec la variable Forme de tte indique que cette variable a un pouvoir discriminant lev dans les deux dimensions. Les objets PLATE sont regroups dans le coin infrieur droit du diagramme, tandis que les objets CREUSE sont regroups dans le coin suprieur droit. Tous les objets CONIQUE se trouvent dans le coin suprieur gauche. Ces objets sont cependant plus loigns les uns des autres que les autres groupes et ne sont donc pas considrs comme tant homognes. Enn, les objets CYLINDRIQUES ne peuvent pas tre spars des objets ARRONDIS. Tous ces objets se trouvent dans le coin infrieur gauche du diagramme.
245 Analyse de correspondance multiple Figure 13-11 Coordonnes des objets tiquetes avec Longueur en demi-pouces
Le diagramme tiquet avec la variable Longueur en demi-pouces indique que cette variable na aucun pouvoir discriminant dans la premire dimension. Ses modalits nindiquent aucun regroupement lorsquelles sont projetes sur une ligne horizontale. Cependant, la variable Longueur en demi-pouces a un pouvoir discriminant dans la deuxime dimension. Les objets les plus courts correspondent aux coordonnes positives et les objets les plus longs, aux coordonnes ngatives.
246 Chapitre 13 Figure 13-12 Coordonnes des objets tiquetes avec la variable Cuivre
Le diagramme tiquet avec la variable Cuivre indique que cette variable dispose de modalits dont la sparation nest pas aise dans la premire ou la deuxime dimension. Les coordonnes des objets sont fortement loignes les unes des autres. Il est impossible de diffrencier les objets en cuivre des objets qui ne sont pas en cuivre.
247 Analyse de correspondance multiple Figure 13-13 Bote de dialogue Slectionner des observations
E Entrez objet ~= 16 comme condition. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Slectionner des observations. E Afchez nouveau la bote de dialogue Analyse des correspondances multiples, puis cliquez sur OK. Figure 13-15 Rcapitulatif des modles (valeur loigne supprime)
Les valeurs propres changent lgrement. La premire dimension reprsente maintenant une plus grande partie de la variance.
Comme lindique le diagramme de discrimination, la variable Indentation de la tte na plus de pouvoir discriminant dans la deuxime dimension, alors que la variable Cuivre, qui navait aucun pouvoir discriminant, a maintenant un pouvoir discriminant dans la deuxime dimension. La discrimination des autres variables ne change quasiment pas.
Figure 13-17 Coordonnes des objets tiquetes avec la variable Cuivre (valeur loigne supprime)
Le diagramme de coordonnes des objets tiquetes avec la variable Cuivre indique que les quatre objets en cuivre se situent proximit de la partie infrieure du diagramme (trois objets se trouvent au mme endroit). Par consquent, la discrimination est leve le long de la deuxime dimension. Comme pour la variable Filetage dans lanalyse prcdente, les objets ne forment pas des groupes compacts, mais la diffrenciation de ces objets par modalit est parfaite.
250 Chapitre 13 Figure 13-18 Coordonnes des objets tiquetes avec la variable Indentation de la tte (valeur loigne supprime)
Le diagramme de coordonnes des objets tiquetes avec la variable Indentation de la tte indique que la premire dimension distingue parfaitement les objets non indents et les objets indents, comme dans lanalyse prcdente. Cependant, par rapport lanalyse prcdente, la deuxime dimension ne peut plus distinguer les deux modalits. De ce fait, lomission de VIS1, qui est le seul objet ayant une tte en toile, a une incidence considrable sur linterprtation de la deuxime dimension. Cette dimension diffrencie maintenant les objets en fonction des variables Cuivre, Forme de tte et Longueur en demi-pouces.
Lectures recommandes
Pour plus dinformations sur lanalyse de correspondance multiple, reportez-vous aux documents suivants : Benzcri, J. P. 1992. Correspondence analysis handbook. New York: Marcel Dekker. Guttman, L. 1941. The quantication of a class of attributes: A theory and method of scale construction. Dans : The Prediction of Personal Adjustment, P. Horst, d. New York: Social Science Research Council. Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWO Press. Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables: Points of view analysis of categorical data. Journal of Classication, 13, . Meulman, J. J., et W. J. Heiser. 1997. Graphical display of interaction in multiway contingency tables by use of homogeneity analysis. Dans : Visual Display of Categorical Data, M. Greenacre, et J. Blasius, ds. New York: Academic Press. Nishisato, S. 1984. Forced classication: A simple application of a quantication method. Psychometrika, 49, .
Tenenhaus, M., et F. W. Young. 1985. An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data. Psychometrika, 50, . Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiple correspondence analysis. Leiden: DSWO Press.
Positionnement multidimensionnel
14
Chapitre
Le positionnement multidimensionnel vise rechercher une reprsentation dun ensemble dobjets donn dans un espace de petite dimension. Vous pouvez obtenir cette solution en utilisant des proximits entre les objets. La procdure rduit au minimum les carrs des carts entre lobjet initial, ventuellement transform, les proximits des objets et leurs distances euclidiennes dans lespace de petite dimension. La nalit de lespace de petite dimension est de mettre en vidence les relations entre les objets. En rduisant la solution une combinaison linaire de variables indpendantes, vous pouvez interprter les dimensions de la solution par rapport ces variables. Lexemple suivant montre comment reprsenter 15 termes de parent diffrents dans trois dimensions et interprter lespace par rapport au sexe, la gnration et au degr de sparation de chacun des termes.
Source 1 2 3 4
Taille de lchantillon 85 85 80 80
252
Source 5 6
sexe
Condition
Taille de lchantillon 80 80
Chaque source correspond une matrice de proximit , dont le nombre de cellules est gal au nombre de personnes dans une source moins le nombre de fois o les objets ont t partitionns dans cette source. Cet ensemble de donnes est disponible dans le chier kinship_dat.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
E Slectionnez loption Plusieurs sources de matrice dans le groupe Nombre de sources. E Cliquez sur Dfinir.
E Slectionnez les options allant de Tante Oncle comme variables de proximits. E Slectionnez loption idsource comme variable didentication de la source. E Cliquez sur Modle. Figure 14-3 Bote de dialogue Modle
255 Positionnement multidimensionnel E Cliquez sur Restrictions dans la bote de dialogue Positionnement multidimensionnel. Figure 14-4 Bote de dialogue Restrictions
E Slectionnez Combinaison linaire de variables indpendantes. E Cliquez sur Fichier pour slectionner la source des variables indpendantes. E Slectionnez kinship_var.sav.
La variable sexe possde une valeur manquante dnie par lutilisateuril sagit de la valeur 9, pour le lien de parent cousin. La procdure la traite comme une modalit valide. La transformation linaire par dfaut a donc peu de chance dtre approprie. Utilisez plutt une transformation nominale.
E Slectionnez sexe. E Slectionnez loption Nominal dans la liste droulante Transformations des variables indpendantes. E Cliquez sur Changer. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Positionnement multidimensionnel.
E Slectionnez loption Stress dans le groupe Diagrammes. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Positionnement multidimensionnel.
La procdure commence avec une solution 10 dimensions et progresse jusqu une solution 2 dimensions. Le graphique des valeurs propres montre le stress brut normalis de la solution chaque dimension. Vous pouvez constater daprs le diagramme que laugmentation du nombre de dimensions de 2 3 et de 3 4 amliore sensiblement le stress. Au-del de 4 dimensions, les amliorations sont assez rduites. Vous opterez pour lanalyse des donnes laide dune solution 3 dimensions, dans la mesure o les rsultats sont plus faciles interprter.
Solution tridimensionnelle
Les variables indpendantes sexe, gnr (gnration) et degr (degr de sparation) ont t construites en vue de leur utilisation pour interprter les dimensions de la solution. Les variables indpendantes ont t labores comme suit :
sexe gnr 1 = masculin, 2 = fminin, 9 = manquant, pour le lien de parent cousin. Nombre de gnrations par rapport vous si le terme fait rfrence votre famille ; ce nombre est dautant plus faible que la gnration est loigne. Ainsi, les grands-parents ont la valeur 2, les petits-enfants la valeur 2 et les frres ou soeurs la valeur 0. Nombre de degrs de sparation le long de votre arbre gnalogique. Ainsi, par rapport vous, vos parents se trouvent un noeud au-dessus, et vos enfants un noeud au-dessous. Pour atteindre vos frres/soeurs, vous devez remonter dun noeud jusqu vos parents, puis descendre dun noeud jusqu vos frres/soeurs, ce qui reprsente 2 degrs de sparation. Quatre degrs vous sparent de vos cousins/cousines deux jusqu vos grands-parents, puis deux jusqu eux en passant par votre tante/oncle.
degr
260 Chapitre 14
Les variables externes sont disponibles dans le chier kinship_var.sav. En outre, une conguration initiale partir dune analyse antrieure est disponible dans le chier kinship_ini.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
Excution de lanalyse
Figure 14-9 Bote de dialogue Modle
E Pour obtenir une solution tridimensionnelle, afchez nouveau la bote de dialogue Positionnement multidimensionnel, puis cliquez sur Modle. E Tapez 3 comme nombres minimum et maximum de dimensions. E Cliquez sur Poursuivre. E Cliquez sur Options dans la bote de dialogue Positionnement multidimensionnel.
E Slectionnez Personnalise pour la conguration initiale. E Slectionnez kinship_ini.sav comme chier contenant les variables lire. E Slectionnez les options dim01, dim02 et dim03 comme variables. E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Positionnement multidimensionnel.
E Slectionnez les options Proximits originales et transformes et Variables explicatives transformes. E Cliquez sur Poursuivre. E Cliquez sur Rsultat dans la bote de dialogue Positionnement multidimensionnel.
E Slectionnez les options Donnes dentre, Dcomposition du stress et Corrlation des variables et dimensions. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Positionnement multidimensionnel.
Mesures de stress
Les mesures de stress et dajustement donnent une indication du degr dloignement entre les distances de la solution et les distances initiales.
Chacune des quatre statistiques de stress mesure le non-ajustement des donnes, tandis que la dispersion reprsente et le coefcient de Tucker de congruence mesurent lajustement. Les mesures de stress faibles (jusqu un minimum de 0) et les mesures dajustement leves (jusqu un maximum de 1) indiquent de bonnes solutions.
Figure 14-14 Dcomposition du stress ligne normalis
La dcomposition du stress facilite lidentication des sources et des objets contribuant le plus au stress global de la solution. Dans le cas prsent, la majeure partie du stress parmi les sources est attribuable aux sources 1 et 2 tandis que, parmi les objets, elle est imputable aux lments Frre, Petite-lle, Grand-pre, Grand-mre, Petit-ls et Soeur. Les deux sources reprsentant la majeure partie du stress sont les deux groupes ayant tri les termes une seule fois. Ces informations suggrent que les tudiants ont considr plusieurs critres lors du tri des termes et que les tudiants qui taient autoriss oprer deux tris se sont focaliss sur une partie de ces critres pour le premier tri, puis ont pris en compte les autres critres loccasion du second tri.
Les objets qui reprsentent la majeure partie du stress sont ceux ayant un degr gal 2. Ces personnes sont des relations nappartenant pas la famille nuclaire (Mre, Pre, Fille, Fils), mais qui sont nanmoins plus proches que les autres relations. Cette position intermdiaire pourrait facilement crer un cart lors du tri de ces termes.
Observez les coordonnes nales des objets dans les dimensions 1 et 3 ; il sagit du diagramme situ dans langle infrieur gauche de la matrice de diagrammes de dispersion. Ce diagramme montre que la dimension 1 (sur laxe x) est corrle avec la variable sexe et que la dimension 3 (sur laxe y) est corrle avec la variable gnr. De gauche droite, vous pouvez constater que la dimension 1 spare les termes femme et homme, entre lesquels gure le terme la fois masculin et fminin Cousin/Cousine. De bas en haut du diagramme, les valeurs croissantes le long de laxe correspondent aux termes plus anciens. Observez maintenant les coordonnes nales des objets dans les dimensions 2 et 3 ; il sagit du diagramme situ au milieu droite de la matrice de diagrammes de dispersion. Ce diagramme indique que la deuxime dimension (le long de laxe y) correspond la variable degr, les valeurs les plus leves le long de laxe correspondant des termes relevant davantage de la famille nuclaire .
266 Chapitre 14
E Pour rexcuter lanalyse, en codant les proximits gnr et degr au niveau ordinal (conservation
des ex aequo), afchez nouveau la bote de dialogue Positionnement multidimensionnel, puis cliquez sur Modle.
E Slectionnez loption Ordinal comme transformation de proximits. E Cliquez sur Poursuivre. E Cliquez sur Restrictions dans la bote de dialogue Positionnement multidimensionnel.
E Slectionnez les options sexe et degr. E Slectionnez loption Ordinal (conserver les ex-aequo) dans la liste droulante Transformations
Diagrammes de transformation
Les diagrammes de transformation sont un premier indice efcace pour dterminer si les transformations initiales taient appropries. Si les diagrammes sont peu prs linaires, lhypothse linaire est approprie. Sinon, vriez si les mesures de stress indiquent une amlioration de lajustement, et si le diagramme de lespace commun facilite linterprtation. Chacune des variables indpendantes obtenant des transformations peu prs linaires, il peut savrer appropri de les interprter en tant que donnes numriques. Toutefois, les proximits nobtenant pas de transformation linaire, il est possible que la transformation ordinale convienne davantage pour celles-ci.
Mesures de stress
Le stress de la solution actuelle prend en charge largument de codage des proximits au niveau ordinal.
Figure 14-19 Mesures de stress et dajustement
Le stress ligne normalis de la solution antrieure a pour valeur 0,06234. Le codage des variables laide de transformations personnalises divise par 2 la valeur du stress, qui passe 0,03137.
Analyse
Il est prfrable de traiter les proximits en tant que variables ordinales, dans la mesure o les mesures de stress afchent une amlioration sensible. Ensuite, vous pouvez, si vous le souhaitez, dlier les variables ordinalescest--dire, permettre des valeurs quivalentes des variables initiales dobtenir diffrentes valeurs transformes. Par exemple, dans la premire source, les proximits entre Tante et Fils, ainsi quentre Tante et Petit-ls, ont pour valeur 85. Lapproche lie des variables ordinales oblige les valeurs transformes de ces proximits tre quivalentes, mais vous navez aucune raison particulire de supposer quelles doivent ltre. Dans ce cas, vous pouvez autoriser la suppression des liens des proximits de manire viter toute restriction superue.
Lectures recommandes
Pour plus dinformations sur le positionnement multidimensionnel, reportez-vous aux documents suivants : Commandeur, J. J. F., et W. J. Heiser. 1993. Mathematical derivations in the proximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Department of Data Theory, University of Leiden. De Leeuw, J., et W. J. Heiser. 1980. Multidimensional scaling with restrictions on the conguration. Dans : Multivariate Analysis, Vol. V, P. R. Krishnaiah, d. Amsterdam: North-Holland. Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of Data Theory, University of Leiden.
270 Chapitre 14
Heiser, W. J., et F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding of symmetric and asymmetric proximity relations. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc.. Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis. Psychometrika, 29, . Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method. Psychometrika, 29, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function I. Psychometrika, 27, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function II. Psychometrika, 27, .
Dpliage multidimensionnel
15
Chapitre
La procdure de dpliage multidimensionnel tente de trouver une chelle quantitative commune vous permettant dexaminer les relations entre deux ensembles dobjets de manire visuelle.
menus :
Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)...
271
E Slectionnez les options allant de Pain grill Tartine beurre comme variables de proximit. E
Dans le groupe Terme de pnalit, tapez 1,0 comme valeur du paramtre Force et 0,0 comme valeur du paramtre Intervalle. Ceci dsactive le terme de pnalit.
E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.
Cette syntaxe indique une analyse des variables tb (pain grill) cmb (tartine beurre).
274 Chapitre 15
La sous-commande INITIAL spcie que les valeurs de dpart sont imputes laide des distances de Spearman. Les valeurs spcies dans la sous-commande PENALTY annulent le terme de pnalit et, par consquent, la procdure minimise la mesure du stress-I de Kruskal. La solution obtenue est donc dgnre. La sous-commande PLOT demande des diagrammes de lespace commun. Tous les autres paramtres sont rinitialiss leur valeur par dfaut.
Mesures
Figure 15-3 Mesures de la solution dgnre
Lalgorithme converge vers une solution aprs 154 itrations et applique un stress pnalis (marqu comme la valeur de la fonction nale) de 0,0000990. Etant donn que le terme de pnalit a t dsactiv, la mesure du stress pnalis est gale au stress-I de Kruskal (la partie stress de la valeur de la fonction est quivalente la mesure du dfaut de lajustement de Kruskal). Des valeurs de stress basses indiquent gnralement que la solution est bien adapte aux donnes, mais il existe plusieurs signes davertissement dune solution dgnre.
Le coefcient de variation des proximits transformes est trs faible compar au coefcient de variation des proximits dorigine. Ceci suggre que les proximits transformes de chaque ligne sont quasi-constantes et que la solution ne montrera ainsi aucune discrimination entre les objets.
La somme des carrs des indices dintermixit de DeSarbo sont une mesure de lintermixit des points des diffrents sous-ensembles. Labsence dintermixit est un signe davertissement dune dgnrescence probable de la solution. Plus la valeur rapporte est proche de 0, plus la solution est intermixe. Plus elle est leve, moins la solution est intermixe. Lindex estimatif de non-dgnrescence de Shepard, rapport sous forme dun pourcentage des diffrentes distances, est gal 0. Il sagit l dune indication numrique claire dune diffrence insufsante entre les distances et donc de la dgnrescence probable de la solution.
Espace commun
Figure 15-4 Diagramme joint de lespace commun pour une solution dgnre
Le diagramme joint de lespace commun des objets de lignes et de colonnes apporte une conrmation visuelle de la dgnrescence de la solution. Les objets de lignes (individus) se situent la circonfrence dun cercle centr sur les objets de colonnes (aliments du petit-djeuner), dont les coordonnes se sont rduites un point unique.
276 Chapitre 15
E Pour produire une solution non dgnre, cliquez sur loutil Rappeler bote de dialogue et slectionnez Dpliage multidimensionnel. E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel. E
Dans le groupe Terme de pnalit, tapez 0,5 comme valeur du paramtre Force et 1,0 comme valeur du paramtre Intervalle. Ceci dsactive le terme de pnalit.
E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.
La seule diffrence rside dans la sous-commande PENALTY. LAMBDA et OMEGA ont t dnies respectivement sur 0,5 et 1,0, leurs valeurs pas dfaut.
Mesures
Figure 15-6 Mesures de la solution non dgnre
Les problmes relevs dans les mesures de la solution dgnre sont prsent corrigs.
Le stress normalis nest plus gal 0. Le coefcient de variation des proximits transformes prsente maintenant une valeur similaire au coefcient de variation des proximits dorigine. Les indices dintermixit de DeSarbo sont beaucoup plus proches de 0, indiquant une grande amlioration de lintermixit de la solution. Lindex estimatif de non-dgnrescence de Shepard, rapport sous forme dun pourcentage des diffrentes distances, est environ gal 80 %. Les diffrences entre les distances sont sufsantes et la solution est probablement non dgnre.
278 Chapitre 15
Espace commun
Figure 15-7 Diagramme joint de lespace commun pour une solution non dgnre
Le diagramme joint de lespace commun permet une interprtation des dimensions. La dimension horizontale semble indiquer une discrimination entre les pains mous et durs ou encore les toasts, les aliments les plus mous se trouvant dans la partie droite de laxe. La dimension verticale ne permet pas une interprtation claire, peut-tre uniquement une discrimination base sur la commodit, les aliments les plus formels se trouvant dans la partie infrieure de laxe. Ceci conduit la formation de plusieurs groupes daliments. Par exemple, les pains aux raisins, les brioches et les beignets forment un groupe daliments mous et quelque peu informels. Les croissants et pains au chocolat forment un groupe daliments plus durs et plus formels. Les toasts et tartines forment un groupe daliments durs et quelque peu informels. Le pain grill est un aliment dur, extrmement informel. Les individus reprsents par les objets de lignes se divisent en plusieurs groupes bien dlimits, selon leurs prfrences pour les aliments mous ou durs, avec de nombreuses variations intra-groupes le long de la dimension verticale.
chier breakfast.sav. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19. Les six scnarios peuvent tre traits en tant que sources distinctes. Utilisez la procdure PREFSCAL pour effectuer un dpliage tridimensionnel des lignes, des colonnes et des sources. La syntaxe servant reproduire ces analyses se trouve dans prefscal_breakfast.sps.
Excution de lanalyse
E Pour lancer une analyse Dpliage multidimensionnel, choisissez les options suivantes dans les
menus :
Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)... Figure 15-8 Bote de dialogue principale Dpliage multidimensionnel
E Slectionnez les options allant de Pain grill Tartine beurre comme variables de proximit. E
E Slectionnez Euclidien pondr comme modle de positionnement. E Cliquez sur Poursuivre. E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel.
Cliquez sur Poursuivre. Cliquez sur Diagrammes dans la bote de dialogue Dpliage multidimensionnel.
E Slectionnez loption Espaces individuels dans le groupe Diagrammes. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.
283 Dpliage multidimensionnel MAXITER(5000) /PENALTY=LAMBDA(0.5) OMEGA(1.0) /PRINT=MEASURES COMMON /PLOT=COMMON WEIGHTS INDIVIDUAL ( ALL ) .
Cette syntaxe indique une analyse des variables tb (pain grill) cmb (tartine beurre). La variable srcid est utilise pour identier les sources. La sous-commande INITIAL spcie que les valeurs de dpart sont calcules laide des distances de Spearman. La sous-commande MODEL spcie un modle Euclidien pondr, qui permet chaque espace individuel de pondrer les dimensions de lespace commun dune manire diffrente. La sous-commande PLOT demande des diagrammes de lespace commun, des espaces individuels et des pondrations des espaces individuels. Tous les autres paramtres sont rinitialiss leur valeur par dfaut.
Mesures
Figure 15-12 Mesures
Lalgorithme converge aprs 481 itrations, avec une mesure du stress pnalis nale de 0,8199642. Les coefcients de variation et lindex de Shepard sont sufsamment levs et les indices de DeSarbo sufsamment bas pour suggrer quil nexiste aucun problme de dgnrescence.
284 Chapitre 15
Espace commun
Figure 15-13 Diagramme join de lespace commun
Le diagramme joint de lespace commun montre une conguration nale trs similaire lanalyse bidimensionnelle des prfrences gnrales, avec une solution transpose au-dessus de la ligne des 45 . Ainsi, la dimension verticale semble indiquer une discrimination entre les pains mous et durs ou encore les toasts, les aliments les plus mous se trouvant dans la partie suprieure de laxe. La dimension horizontale ne permet pas une interprtation claire, peut-tre uniquement une discrimination base sur la commodit, les aliments les plus formels se trouvant dans la partie gauche de laxe. Les individus reprsents par les objets de lignes se divisent toujours en plusieurs groupes bien dlimits, selon leurs prfrences pour les aliments mous ou durs avec de nombreuses variations intra-groupes le long de la dimension horizontale.
Espaces individuels
Figure 15-14 Pondrations des dimensions
Un espace individuel est calcul pour chaque source. Les pondrations des dimensions indiquent limpact des diffrents espaces individuels sur les dimensions de lespace commun. Une pondration plus leve indique une plus grande distance lintrieur de lespace individuel et donc une plus grande discrimination entre les objets de la dimension en question pour cet espace individuel.
La spcicit est une mesure de la diffrence entre lespace individuel et lespace commun. Un espace individuel identique lespace commun prsenterait des pondrations de dimensions identiques et une spcicit de 0, alors quun espace individuel spcique une dimension particulire prsenterait une seule pondration de dimension leve et une spcicit de 1. Dans le cas prsent, les sources les plus divergentes sont Petit-djeuner avec jus de fruit, jambon, oeufs et boisson et En-cas avec boisson chaude uniquement. Limportance est la mesure de la contribution relative de chaque dimension la solution. Dans le cas prsent, les dimensions prsentent une importance gale.
Le diagramme des pondrations des dimensions offre une vue densemble du tableau des pondrations. Les groupes Petit-djeuner avec jus de fruit, jambon, oeufs et boisson et En-cas avec boisson uniquement sont les plus proches des axes des dimensions, mais aucun des deux nest spciquement rattach une dimension particulire.
287 Dpliage multidimensionnel Figure 15-16 Diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeufs et boisson
Le diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeurs et boisson illustre leffet de ce scnario sur les prfrences. La source repose majoritairement sur la premre dimension, donc la diffrenciation entre les aliments est principalement due la premire dimension.
288 Chapitre 15 Figure 15-17 Diagramme joint de lespace individuel En-cas avec boisson uniquement
Le diagramme joint de lespace individuel En-cas avec boisson uniquement illustre leffet de ce scnario sur les prfrences. La source repose majoritairement sur la deuxime dimension, donc la diffrenciation entre les aliments est principalement due la deuxime dimension. Cependant, une mineure partie de la diffrenciation se fait galement le long de la premire dimension en raison de la spcicit relativement basse de la source.
289 Dpliage multidimensionnel E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel. Figure 15-18 Options
E Slectionnez Correspondance dans le groupe Conguration initiale. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.
La seule diffrence rside dans la sous-commande INITIAL. La conguration de dpart a t dnie sur CORRESPONDENCE, qui utilise les rsultats dune analyse des correspondances sur les donnes inverses (similitudes au lieu des diffrences), avec une normalisation symtrique des coordonnes des lignes et des colonnes.
Mesures
Figure 15-19 Mesures de la configuration initiale des correspondances
Lalgorithme converge aprs 385 itrations, avec une mesure du stress pnalis nale de 0,8140741. Les valeurs de cette statistique, du dfaut de lajustement, de la qualit de lajustement, des coefcients de variation et de lindex de Shepard sont toutes trs similaires celles de la solution utilisant le dpart de Spearman classique. Les indices de DeSarbo sont quelque peu diffrents, avec une valeur de 1,7571887 au lieu de 0,2199287, ce qui suggre que la solution utilisant le dpart par correspondance nest pas aussi mixte. Pour voir dans quelle mesure ceci affecte la solution, reportez-vous au diagramme joint de lespace commun.
Espace commun
Figure 15-20 Diagramme joint de lespace commun pour la configuration initiale des correspondances
Le diagramme joint de lespace commun montre une conguration nale similaire lanalyse faite avec la conguration initiale de Spearman classique. Cependant, les objets de colonnes (aliments du petit-djeuner) se situent autour des objets de lignes (individus) au lieu que lensemble soit intermix.
292 Chapitre 15
Espaces individuels
Figure 15-21 Pondrations des dimensions pour la configuration initiale des correspondances
Dans la conguration initiale des correspondances, chaque espace individuel prsente une spcicit plus leve, cest dire que chaque situation dans laquelle les participants ont class les aliments de petit-djeuner est plus fortement associe une dimension spcique. Les sources les plus divergentes sont toujours Petit-djeuner avec jus de fruit, jambon, oeufs et boisson et En-cas avec boisson uniquement.
293 Dpliage multidimensionnel Figure 15-22 Diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeufs et boisson pour la configuration initiale des correspondances
La spcicit plus leve apparat clairement dans le diagramme joint de lespace individuel Petit-djeuner avec jus de fruit, jambon, oeufs et boisson. La source affecte encore plus fortement la premire dimension que dans le cas du dpart de Spearman classique, si bien que les objets de colonnes et de lignes prsentent une variation un peu moins importante sur laxe vertical et un peu plus importante sur laxe horizontal.
294 Chapitre 15 Figure 15-23 Diagramme joint de lespace individuel En-cas avec boisson uniquement pour la configuration initiale des correspondances
Le diagramme joint de lespace individuel En-cas avec boissson uniquement montre que les objets de lignes et de colonnes sont plus proches dune ligne verticale que dans le cas du dpart de Spearman classique.
Excution de lanalyse
E Pour lancer une analyse Dpliage multidimensionnel, choisissez les options suivantes dans les
menus :
Analyse > Echelle > Dpliage multidimensionnel (PREFSCAL)...
295 Dpliage multidimensionnel Figure 15-24 Bote de dialogue principale Dpliage multidimensionnel
E Slectionnez les options allant de Courir Crier comme variables de proximit. E Slectionnez ROWID comme variable de ligne. E Cliquez sur Modle.
E Slectionnez Linaire comme transformation de proximit et choisissez Inclure une constante. E Choisissez dappliquer les transformations Dans toutes les sources simultanment. E Cliquez sur Poursuivre. E Cliquez sur Options dans la bote de dialogue Dpliage multidimensionnel.
E Slectionnez Personnalise dans le groupe Conguration initiale. E Accdez au chier behavior_ini.sav et choisissez-le comme chier contenant la conguration
initiale personnalise. Pour plus dinformations, reportez-vous la section Fichiers dexemple dans lannexe A dans IBM SPSS Categories 19.
E
E Cliquez sur Poursuivre. E Cliquez sur Diagrammes dans la bote de dialogue Dpliage multidimensionnel.
E Slectionnez Diagrammes de transformation dans le groupe Diagrammes. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.
299 Dpliage multidimensionnel /MODEL=IDENTITY /CRITERIA=DIMENSIONS(2,2) DIFFSTRESS(.000001) MINSTRESS(.0001) MAXITER(5000) /PENALTY=LAMBDA(1.0) OMEGA(0.0) /PRINT=MEASURES COMMON /PLOT=COMMON TRANSFORMATIONS .
Cette syntaxe spcie une analyse des variables courir crier. La variable idligne est utilise pour identier les lignes. La sous-commande INITIAL spcie que les valeurs de dpart doivent tre tires du chier behavior_ini.sav. Les coordonnes des lignes et des colonnes sont empiles, avec les coordonnes des colonnes la suite des coordonnes des lignes. La sous-commande CONDITION spcie que toutes les proximits peuvent tre compares entre elles. Ceci est vri pour cette analyse : en comparant les proximits obtenues pour les comportements Courir dans un parc et Courir dans une glise vous observez que lun des deux comportements est considr moins appropri que lautre. La sous-commande TRANSFORMATION indique une transformation linaire des proximits avec constante. Ceci est appropri si une diffrence de 1 point dans les proximits est observe dans tout lintervalle. En dautres termes, si les tudiants ont attribu leurs notes de manire ce que la diffrence entre 0 et 1 est la mme que la diffrence entre 5 et 6, alors une transformation linaire est approprie. La sous-commande PLOT demande des diagrammes de lespace commun et des diagrammes de transformation. Tous les autres paramtres sont rinitialiss leur valeur par dfaut.
300 Chapitre 15
Mesures
Figure 15-28 Mesures
Lalgorithme converge aprs 169 itrations, avec une mesure du stress pnalis nale de 0,6427725. Les coefcients de variation et lindex de Shepard sont sufsamment levs et les indices de DeSarbo sufsamment bas pour suggrer quil nexiste aucun problme de dgnrescence.
Espace commun
Figure 15-29 Diagramme join de lespace commun
La dimension horizontale apparat plus fortement associe aux objets de colonnes (comportements) et tablit une discrimination entre les comportements inappropris (se battre, roter) et les comportements plus appropris. La dimension verticale apparat plus fortement associe aux objets de lignes (situations) et dnit diffrentes restrictions parmi les relations comportement-situation tablies.
Dans la partie infrieure de la dimension verticale se situent les situations ( lglise, en classe) restreintes aux types de comportements plus calmes et introspectifs (lire, crire). Ainsi, ces comportements sont contenus dans la partie infrieure de laxe vertical. Dans la partie suprieure de la dimension verticale se trouvent les situations (lms, jeux, rendez-vous) restreintes aux types de comportements sociables/extrovertis (manger, embrasser, rire). Ainsi, ces comportements sont contenus dans la partie suprieure de laxe vertical. Au centre de la dimension verticale, les situations sont rparties distinctivement le long de la dimension horizontale selon le caractre restrictif de la situation. Les situations les plus loignes des comportements (en entretien) sont les plus restrictives, alors que celles les proches des comportements (dans la chambre, au parc) sont gnralement les moins restrictives.
302 Chapitre 15
Transformations de proximit
Figure 15-30 Diagramme de transformation
Les proximits taient traites comme linaires dans cette analyse, de manire ce que le diagramme reprsentant les valeurs transformes en fonction des proximits dorigine forme une ligne droite. Lajustement de cette solution est bon, mais un meilleur ajustement peut tre obtenu par une transformation diffrente des proximits.
303 Dpliage multidimensionnel E Cliquez sur Modle dans la bote de dialogue Dpliage multidimensionnel. Figure 15-31 Bote de dialogue Modle
E Slectionnez loption Ordinal comme transformation de proximits. E Cliquez sur Poursuivre. E Cliquez sur OK dans la bote de dialogue Dpliage multidimensionnel.
La seule diffrence rside dans la sous-commande TRANSFORMATION. La transformation est dnie sur ORDINAL, ce qui prserve lordre des proximits mais ne ncessite pas que les valeurs transformes soient proportionnelles aux valeurs dorigine.
304 Chapitre 15
Mesures
Figure 15-32 Mesures de la solution avec transformation ordinale
Lalgorithme converge aprs 268 itrations, avec une mesure du stress pnalis nale de 0.6044671. Cette statistique et les autres mesures sont lgrement meilleures pour cette solution que pour celle obtenue par transformation linaire des proximits.
Espace commun
Figure 15-33 Diagramme joint de lespace commun pour la solution avec transformation ordinale
Linterprtation de lespace commun est la mme pour les deux solutions. Cette solution (transformation ordinale) prsente une variation relativement plus faible sur la dimension verticale que sur la dimension horizontale contrairement la solution avec transformation linaire.
306 Chapitre 15
Transformations de proximit
Figure 15-34 Diagramme de transformation de la solution avec transformation ordinale
A lexception des valeurs aux proximits les plus leves, qui se distinguent du reste des valeurs, la transformation ordinale des proximits est relativement linaire. Ces proximits leves non-linaires constituent la principale diffrence entre les solutions ordinale et linaire ; cependant, nous ne disposons pas de sufsamment dinformations pour dteminer si cette tendance non-linaire dans les valeurs les plus leves savre tre une tendance vrie ou une anomalie.
Lectures recommandes
Reportez-vous aux crits suivants pour plus dinformations : Busing, F. M. T. A., P. J. F. Groenen, et W. J. Heiser. 2005. Avoiding degeneracy in multidimensional unfolding by penalizing on the coefcient of variation. Psychometrika, 70, . Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, .
Annexe
Fichiers dexemple
Les chiers dexemple installs avec le produit gurent dans le sous-rpertoire Echantillons du rpertoire dinstallation. Il existe un dossier distinct au sein du sous-rpertoire Echantillons pour chacune des langues suivantes : Anglais, Franais, Allemand, Italien, Japonais, Coren, Polonais, Russe, Chinois simpli, Espangol et Chinois traditionnel. Seuls quelques chiers dexemples sont disponibles dans toutes les langues. Si un chier dexemple nest pas disponible dans une langue, le dossier de langue contient la version anglaise du chier dexemple.
Descriptions
Voici de brves descriptions des chiers dexemple utiliss dans divers exemples travers la documentation.
accidents.sav.Ce chier de donnes dhypothse concerne une socit dassurance qui tudie
les facteurs de risque lis lge et au sexe dans les accidents de la route survenant dans une rgion donne. Chaque observation correspond une classication croise de la catgorie dge et du sexe.
adl.sav. Ce chier de donnes dhypothse concerne les mesures entreprises pour identier les
avantages dun type de thrapie propos aux patients qui ont subi une attaque cardiaque. Les mdecins ont assign de manire alatoire les patients du sexe fminin ayant subi une attaque cardiaque un groupe parmi deux groupes possibles. Le premier groupe a fait lobjet de la thrapie standard tandis que le second a bnci en plus dune thrapie motionnelle. Trois mois aprs les traitements, les capacits de chaque patient effectuer les tches ordinaires de la vie quotidienne ont t notes en tant que variables ordinales.
dtaillant pour examiner la relation existant entre largent dpens dans la publicit et les ventes rsultantes. Pour ce faire, il collecte les chiffres des ventes passes et les cots associs la publicit.
rcoltes de mas. La concentration de ce poison varie largement dune rcolte lautre et au sein de chaque rcolte. Un processeur de grain a reu 16 chantillons issus de 8 rcoltes de mas et a mesur les niveaux dalfatoxine en parties par milliard (PPB).
anorexique/boulimique, des chercheurs(Van der Ham, Meulman, Van Strien, et Van Engeland, 1997) ont examin 55 adolescents souffrant de troubles alimentaires. Chaque patient a t
Copyright SPSS Inc. 1989, 2010 307
308 Annexe A
observ quatre fois sur une priode de quatre annes, soit un total de 220 observations. A chaque observation, les patients ont t nots pour chacun des 16 symptmes. En raison de labsence de scores de symptme pour le patient 71/visite 2, le patient 76/visite 2 et le patient 47/visite 3, le nombre dobservations valides est de 217.
un analyste en assurances pour modliser le nombre daccidents de la route par conducteur tout en prenant en compte lge et le sexe du conducteur. Chaque observation reprsente un conducteur distinct et enregistre son sexe, son ge et le nombre daccidents de la route au cours des cinq dernires annes.
de CD musicaux dun groupe. Les donnes relatives trois variables explicatives possibles sont galement incluses.
banque pour rduire le taux de dfaut de paiement. Il contient des informations nancires et dmographiques sur 850 clients existants et ventuels. Les premires 700 observations concernent des clients auxquels des prts ont t octroys. Les 150 dernires observations correspondant aux clients ventuels que la banque doit classer comme bons ou mauvais risques de crdit.
52 tudiants de noter les combinaisons tablies partir de 15 situations et de 15 comportements sur une chelle de 0 9, o 0 = extrmement appropri et 9 = extrmement inappropri . En effectuant la moyenne des rsultats de lensemble des individus, on constate une certaine diffrence entre les valeurs.
une usine qui fabrique des freins disque pour des voitures haut de gamme. Le chier de donnes contient les mesures de diamtre de 16 disques de 8 machines de production. Le diamtre cible des freins est de 322 millimtres.
21 tudiants en MBA (Master of Business Administration) de lcole de Wharton et leurs conjoints de classer 15 aliments du petit-djeuner selon leurs prfrences, de 1= aliment prfr 15= aliment le moins apprci . Leurs prfrences ont t enregistres dans six scnarios diffrents, allant de Prfrence gnrale En-cas avec boisson uniquement .
rgion, un service haut dbit. Le chier de donnes contient le nombre dabonns mensuels de 85 rgions sur une priode de quatre ans.
(McCullagh et Nelder, 1989) qui concerne des actions en indemnisation pour des voitures. Le montant daction en indemnisation moyen peut tre model comme prsentant une distribution gamma, laide dune fonction de lien inverse pour associer la moyenne de la variable dpendante une combinaison linaire de lge de lassur, du type de vhicule et de lge du vhicule. Le nombre dactions entreprises peut tre utilis comme pondration de positionnement.
barmes de prix et des spcications physiques concernant divers modles et marques de vhicule. Les barmes de prix et les spcications physiques proviennent tour tour de edmunds.com et des sites des constructeurs.
commercialisation dun nouveau nettoyeur de tapis souhaite examiner linuence de cinq critres sur la prfrence du consommateur : la conception du conditionnement, la marque, le prix, une tiquette Economique et une garantie satisfait ou rembours. Il existe trois niveaux de critre pour la conception du conditionnement, suivant lemplacement de lapplicateur, trois marques (K2R, Glory et Bissell), trois niveaux de prix et deux niveaux (non ou oui) pour chacun des deux derniers critres. Dix consommateurs classent 22 prols dnis par ces critres. La variable Prfrence indique le classement des rangs moyens de chaque prol. Un rang faible correspond une prfrence leve. Cette variable rete une mesure globale de prfrence pour chaque prol.
carpet_prefs.sav. Ce chier de donnes repose sur le mme exemple que celui dcrit pour
carpet.sav, mais contient les classements rels issus de chacun des 10 clients. On a demand aux consommateurs de classer les 22 prols de produits, du prfr au moins intressant. Les variables PREF1 PREF22 contiennent les identicateurs des prols associs, tels quils sont dnis dans carpet_plan.sav.
relatifs trois produits vendus par une entreprise de vente par correspondance. Les donnes relatives cinq variables explicatives possibles sont galement incluses.
un ensemble de facteurs saisonniers calculs partir de la procdure de dsaisonnalisation, ainsi que les variables de date correspondantes.
oprateur tlphonique pour rduire les taux de dsabonnement. Des scores de propension au dsabonnement sont attribus aux comptes, de 0 100. Les comptes ayant une note gale ou suprieure 50 sont susceptibles de changer de fournisseur.
fabricant pour dterminer si un nouvel alliage haute qualit rsiste mieux la chaleur quun alliage standard. Chaque observation reprsente un test spar de lun des deux alliages ; le degr de chaleur auquel lalliage ne rsiste pas est enregistr.
310 Annexe A
interroges sur leurs prfrences de petit-djeuner et sur leur ge, leur sexe, leur situation familiale et leur mode de vie (actif ou non actif, selon quelles pratiquent une activit physique au moins deux fois par semaine). Chaque observation correspond un rpondant distinct.
qualit observ dans une usine de textile. Dans chaque lot produit lusine, les inspecteurs prlvent un chantillon de vtements et comptent le nombre de vtements qui ne sont pas acceptables.
coffee.sav. Ce chier de donnes concerne limage perue de six marques de caf frapp
(Kennedy, Riquier, et Sharp, 1996). Pour chacun des 23 attributs dimage de caf frapp, les personnes sollicites ont slectionn toutes les marques dcrites par lattribut. Les six marques sont appeles AA, BB, CC, DD, EE et FF des ns de condentialit.
contacts.sav. Ce chier de donnes dhypothse concerne les listes de contacts dun groupe
de reprsentants en informatique dentreprise. Chaque contact est class selon le service de lentreprise o il travaille et le classement de son entreprise. Sont galement enregistrs le montant de la dernire vente effectue, le temps pass depuis la dernire vente et la taille de lentreprise du contact.
grand magasin pour valuer lefcacit dune promotion rcente de carte de crdit. A cette n, 500 dtenteurs de carte ont t slectionns au hasard. La moiti a reu une publicit faisant la promotion dun taux dintrt rduit sur les achats effectus dans les trois mois venir. Lautre moiti a reu une publicit saisonnire standard.
une socit pour utiliser les informations gurant dans sa banque de donnes et proposer des offres spciales aux clients susceptibles dtre intresss. Un sous-groupe de la base de clients a t slectionn au hasard et a reu des offres spciales. Les rponses des clients ont t enregistres.
une campagne de marketing. Ces donnes incluent des informations dmographiques, un rcapitulatif de lhistorique dachat et indiquent si chaque personne a rpondu ou non la campagne. Chaque observation reprsente une personne distincte.
cibles potentielles pour une campagne de marketing. Ces donnes incluent des informations dmographiques et un rcapitulatif de lhistorique dachat pour chaque personne. Chaque observation reprsente une personne distincte.
debate.sav. Ce chier de donnes dhypothse concerne des rponses apparies une enqute
donne aux participants un dbat politique avant et aprs le dbat. Chaque observation reprsente un rpondant distinct.
debate_aggregate.sav. Il sagit dun chier de donnes dhypothse qui rassemble les rponses
dans le chier debate.sav. Chaque observation correspond une classication croise de prfrence avant et aprs le dbat.
demo.sav. Ce chier de donnes dhypothse concerne une base de donnes clients achete en
vue de diffuser des offres mensuelles. Les donnes indiquent si le client a rpondu ou non loffre et contiennent diverses informations dmographiques.
par une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond une ville diffrente. La rgion, la province, le quartier et la ville sont enregistrs.
une socit pour compiler une base de donnes contenant des informations denqute. Chaque observation correspond un mnage diffrent issu des villes slectionnes la premire tape. La rgion, la province, le quartier, la ville, la sous-division et lidentication sont enregistrs. Les informations dchantillonnage des deux premires tapes de la conception sont galement incluses.
collectes via une mthode complexe dchantillonnage. Chaque observation correspond un mnage diffrent et diverses informations gographiques et dchantillonnage sont enregistres.
dmdata.sav. Ceci est un chier de donnes dhypothse qui contient des informations
dmographiques et des informations concernant les achats pour une entreprise de marketing direct. dmdata2.sav contient les informations pour un sous-ensemble de contacts qui ont reu un envoi dessai, et dmdata3.sav contient des informations sur les contacts restants qui nont pas reu lenvoi dessai.
dietstudy.sav. Ce chier de donnes dhypothse contient les rsultats dune tude portant sur
le rgime de Stillman(Rickman, Mitchell, Dingman, et Dalen, 1974). Chaque observation correspond un sujet distinct et enregistre son poids en livres avant et aprs le rgime, ainsi que ses niveaux de triglycrides en mg/100 ml.
lecteur DVD. A laide dun prototype, lquipe de marketing a collect des donnes de groupes spciques. Chaque observation correspond un utilisateur interrog et enregistre des informations dmographiques sur cet utilisateur, ainsi que ses rponses aux questions portant sur le prototype.
credit gurant dans le rfrentiel Machine Learning Databases (Blake et Merz, 1998) de luniversit de Californie, Irvine.
grocery_coupons.sav dans lequel les achats hebdomadaires sont organiss par client distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, le montant dpens enregistr est prsent la somme des montants dpenss au cours des quatre semaines de lenqute.
grocery_coupons.sav. Il sagit dun chier de donnes dhypothse qui contient des donnes
denqute collectes par une chane de magasins dalimentation qui chercher dterminer les habitudes de consommation de ses clients. Chaque client est suivi pendant quatre semaines et chaque observation correspond une semaine distincte. Les informations enregistres concernent les endroits o le client effectue ses achats, la manire dont il les effectue, ainsi que les sommes dpenses en provisions au cours de cette semaine.
312 Annexe A
guttman.sav. Bell (Bell, 1961) a prsent un tableau pour illustrer les groupes sociaux
possibles. Guttman (Guttman, 1968) a utilis une partie de ce tableau, dans lequel cinq variables dcrivant des lments tels que linteraction sociale, le sentiment dappartenance un groupe, la proximit physique des membres et la formalit de la relation, ont t croises avec sept groupes sociaux thoriques, dont les foules (par exemple, le public dun match de football), laudience (par exemple, au cinma ou dans une salle de classe), le public (par exemple, les journaux ou la tlvision), les bandes (proche dune foule, mais qui serait caractrise par une interaction beaucoup plus intense), les groupes primaires (intimes), les groupes secondaires (volontaires) et la communaut moderne (groupement lche issu dune forte proximit physique et dun besoin de services spcialiss).
nancement des soins de sant (montant par groupe de 100 individus), les taux de maladie (taux par groupe de 10 000 individus) et les visites chez les prestataires de soins de sant (taux par groupe de 10 000 individus). Chaque observation reprsente une ville diffrente.
laboratoire pharmaceutique pour dvelopper une analyse rapide de dtection dinfection HIV. Lanalyse a pour rsultat huit nuances de rouge, les nuances les plus marques indiquant une plus forte probabilit dinfection. Un test en laboratoire a t effectu sur 2 000 chantillons de sang, la moiti de ces chantillons tant infecte par le virus HIV et lautre moiti tant saine.
dinrmires occupant des postes administratifs et dans les services de soins, et afchant divers niveaux dexprience.
compagnie dassurance souhaitant dvelopper un modle pour signaler des rclamations suspectes, potentiellement frauduleuses. Chaque observation correspond une rclamation distincte.
insure.sav. Ce chier de donnes dhypothse concerne une compagnie dassurance qui tudie
les facteurs de risque indiquant si un client sera amen dclarer un incident au cours dun contrat dassurance vie dune dure de 10 ans. Chaque observation gurant dans le chier de donnes reprsente deux contrats, lun ayant enregistr une rclamation et lautre non, apparis par ge et sexe.
judges.sav. Ce chier de donnes dhypothse concerne les scores attribus par des juges
expriments (plus un juge enthousiaste) 300 performances de gymnastique. Chaque ligne reprsente une performance distincte ; les juges ont examin les mmes performances.
kinship_dat.sav. Rosenberg et Kim (Rosenberg et Kim, 1975) se sont lancs dans lanalyse
de 15 termes de parent (cousin/cousine, lle, ls, frre, grand-mre, grand-pre, mre, neveu, nice, oncle, pre, petite-lle, petit-ls, sur, tante). Ils ont demand quatre groupes dtudiants (deux groupes de femmes et deux groupes dhommes) de trier ces termes en fonction des similarits. Deux groupes (un groupe de femmes et un groupe dhommes) ont t invits effectuer deux tris, en basant le second sur un autre critre que le premier. Ainsi, un total de six sources a t obtenu. Chaque source correspond une matrice de proximit , dont le nombre de cellules est gal au nombre de personnes dans une source moins le nombre de fois o les objets ont t partitionns dans cette source.
et degr (de sparation) permettant dinterprter les dimensions dune solution pour kinship_dat.sav. Elles permettent en particulier de rduire lespace de la solution une combinaison linaire de ces variables.
ensemble Algonquin (Illinois) au cours des annes 19992000. Ces ventes relvent des archives publiques.
grande envergure concernant la population des Etats-Unis. Des entretiens ont lieu avec un chantillon de mnages reprsentatifs de la population amricaine. Des informations dmographiques et des observations sur ltat de sant et le comportement sanitaire sont recueillies auprs des membres de chaque mnage. Ce chier de donnes contient un sous-groupe dinformations issues de lenqute de 2000. National Center for Health Statistics. National Health Interview Survey, 2000. Fichier de donnes et documentation dusage public. ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/NHIS/2000/. Accs en 2003.
ozone.sav. Les donnes incluent 330 observations portant sur six variables mtorologiques
pour prvoir la concentration dozone partir des variables restantes. Des chercheurs prcdents (Breiman et Friedman, 1985), (Hastie et Tibshirani, 1990), ont dcel parmi ces variables des non-linarits qui pnalisent les approches standard de la rgression.
clinique dun remde anti-inammatoire traitant les douleurs de larthrite chronique. On cherche notamment dterminer le temps ncessaire au mdicament pour agir et les rsultats quil permet dobtenir par rapport un mdicament existant.
admis lhpital pour suspicion dinfarctus du myocarde suspect (ou attaque cardiaque ). Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.
chantillon de patients sous traitement thrombolytique aprs un infarctus du myocarde. Chaque observation correspond un patient distinct et enregistre de nombreuses variables lies son sjour lhpital.
and Story Library. Il concerne les mesures quentreprend un fabricant de vaisselle en mtal (Nambe Mills, Santa Fe, Nouveau-Mexique) pour planier sa production. Chaque observation reprsente un article diffrent de la gamme de produits. Le diamtre, le temps de polissage, le prix et le type de produit sont enregistrs pour chaque article.
enquteur pour dterminer le niveau de soutien du public pour un projet de loi avant lgislature. Les observations correspondent des lecteurs enregistrs. Chaque observation enregistre le comt, la ville et le quartier o habite llecteur.
rpertoris dans le chier poll_cs.sav. Lchantillon a t prlev selon le plan spci dans le chier de plan poll.csplan et ce chier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. Toutefois, ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS Probability-Proportional-to-Size), il existe
314 Annexe A
galement un chier contenant les probabilits de slection conjointes (poll_jointprob.sav). Les variables supplmentaires correspondant la rpartition dmographique des lecteurs et leur opinion sur le projet de loi propos ont t collectes et ajoutes au chier de donnes une fois lchantillon prlev.
un contrleur au niveau du comt pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits vendues dans le comt au cours de lanne prcdente. Chaque observation du chier de donnes enregistre la ville o se trouve la proprit, lvaluateur ayant visit la proprit pour la dernire fois, le temps coul depuis cette valuation, lvaluation effectue ce moment-l et la valeur de vente de la proprit.
un contrleur du gouvernement pour maintenir les valuations de valeur de proprit jour sur des ressources limites. Les observations correspondent des proprits de ltat. Chaque observation du chier de donnes enregistre le comt, la ville et le quartier o se trouve la proprit, le temps coul depuis la dernire valuation et lvaluation alors effectue.
des proprits rpertories dans le chier property_assess_cs.sav. Lchantillon a t prlev selon le plan spci dans le chier de plan property_assess.csplan et ce chier de donnes enregistre les probabilits dinclusion et les pondrations dchantillon. La variable supplmentaire Valeur courante a t collecte et ajoute au chier de donnes une fois lchantillon prlev.
agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis, ainsi que le temps coul jusqu la seconde arrestation si elle sest produite dans les deux annes suivant la premire.
quentreprend une agence administrative dapplication de la loi pour interprter les taux de rcidive dans la juridiction. Chaque observation correspond un rcidiviste libr suite la premire arrestation en juin 2003 et enregistre les informations dmographiques qui lui sont propres, certains dtails sur le premier dlit commis et les donnes relatives la seconde arrestation, si elle a eu lieu avant n juin 2006. Les rcidivistes ont t choisis dans plusieurs dpartements chantillonns conformment au plan dchantillonnage spci dans recidivism_cs.csplan. Ce plan faisant appel une mthode dchantillonnage de probabilit proportionnelle la taille (PPS - Probability proportional to size), il existe galement un chier contenant les probabilits de slection conjointes (recidivism_cs_jointprob.sav).
dachat, y compris la date dachat, le/les lment(s) achet(s) et le montant montaire pour chaque transaction.
nouveaux cours de formation en vente. Soixante employs, diviss en trois groupes, reoivent chacun une formation standard. En outre, le groupe 2 suit une formation technique et le groupe 3 un didacticiel pratique. A lissue du cours de formation, chaque employ est test et
sa note enregistre. Chaque observation du chier de donnes reprsente un stagiaire distinct et enregistre le groupe auquel il a t assign et la note quil a obtenue au test.
satisf.sav. Il sagit dun chier de donnes dhypothse portant sur une enqute de satisfaction
effectue par une socit de vente au dtail au niveau de quatre magasins. Un total de 582 clients ont t interrogs et chaque observation reprsente la rponse dun seul client.
screws.sav.Ce chier de donnes contient des informations sur les descriptives des vis, des
observ dans une usine de produits capillaires. A intervalles rguliers, six lots de sortie distincts sont mesurs et leur pH enregistr. La plage cible est 4,55,5.
al., 1989) et concernant les dommages causs des cargos par les vagues. Les effectifs dincidents peuvent tre modliss comme des incidents se produisant selon un taux de Poisson en fonction du type de navire, de la priode de construction et de la priode de service. Les mois de service totaliss pour chaque cellule du tableau form par la classication croise des facteurs fournissent les valeurs dexposition au risque.
site.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une socit
pour choisir de nouveaux sites pour le dveloppement de ses activits. Lentreprise a fait appel deux consultants pour valuer sparment les sites. Ces consultants, en plus de fournir un rapport approfondi, ont class chaque site comme constituant une ventualit bonne , moyenne ou faible .
Drug Abuse de 1998 et constitue un chantillon de probabilit des mnages amricains. (http://dx.doi.org/10.3886/ICPSR02934) Ainsi, la premire tape dans lanalyse de ce chier doit consister pondrer les donnes pour reter les tendances de population.
mdicales une fois celle-ci purge via des procdures de loption Validation de donnes.
stroke_invalid.sav. Ce chier de donnes dhypothse concerne ltat initial dune base de
qui quittent un programme de rducation la suite dun accident ischmique et rencontrent un certain nombre de problmes. Aprs lattaque, loccurrence dinfarctus du myocarde, daccidents ischmiques ou hmorragiques est signale, et le moment de lvnement enregistr. Lchantillon est tronqu gauche car il ninclut que les patients ayant survcu durant le programme de rducation mis en place suite une attaque.
mdicales une fois les valeurs vries via la procdure Validation de donnes. Elle contient encore des observations anormales potentielles.
donnes dmographiques et des mesures comportementales. Il est bas sur un sous-ensemble de variables de la 1998 NORC General Social Survey, bien que certaines valeurs de donnes aient t modies et que des variables supplmentaires ctives aient t ajoutes titre de dmonstration.
316 Annexe A
telco.sav. Ce chier de donnes dhypothse concerne les mesures quentreprend une socit
de tlcommunications pour rduire les taux de dsabonnement de sa base de clients. Chaque observation correspond un client distinct et enregistre diverses informations dmographiques et dutilisation de service.
les variables de permanence et de dpenses des consommateurs transformes log ont t supprimes et remplaces par des variables de dpenses des consommateurs transformes log standardises.
mais certaines des valeurs de donnes dmographiques ont t remplaces par des valeurs manquantes.
testmarket.sav. Ce chier de donnes dhypothse concerne une chane de fast foods et ses
plans marketing visant ajouter un nouveau plat son menu. Trois campagnes tant possibles pour promouvoir le nouveau produit, le nouveau plat est introduit sur des sites sur plusieurs marchs slectionns au hasard. Une promotion diffrente est effectue sur chaque site et les ventes hebdomadaires du nouveau plat sont enregistres pour les quatre premires semaines. Chaque observation correspond un site-semaine distinct.
testmarket.sav dans lequel les ventes hebdomadaires sont organises par site distinct. Certaines variables qui changeaient toutes les semaines disparaissent. En outre, les ventes enregistres sont prsent la somme des ventes ralises au cours des quatre semaines de lenqute.
essentiellement indiquer ltat par dfaut des variables avant affectation du niveau de mesure et des tiquettes de valeurs.
tv-survey.sav. Ce chier de donnes dhypothse concerne une enqute mene par un studio
de tlvision qui envisage de prolonger la diffusion dun programme ou de larrter. On a demand 906 personnes si elles regarderaient le programme dans diverses situations. Chaque ligne reprsente un rpondant distinct et chaque colonne une situation distincte.
comparer lefcacit de deux thrapies de prvention de la rcurrence des ulcres. Il fournit un bon exemple de donnes censures par intervalle et a t prsent et analys ailleurs (Collett, 2003).
ulcer_recurrence.sav pour que vous puissiez modliser la probabilit dvnement pour chaque intervalle de lenqute plutt que la probabilit dvnement de n denqute. Il a t prsent et analys ailleurs (Collett et al., 2003).
verd1985.sav. Ce chier de donnes concerne une enqute (Verdegaal, 1985). Les rponses de
15 sujets 8 variables ont t enregistres. Les variables prsentant un intrt sont divises en trois ensembles. Le groupe 1 comprend lge et la situation familiale, le groupe 2 les animaux domestiques et la presse, et le groupe 3 la musique et lhabitat. A la variable animal domestique est appliqu un codage nominal multiple et ge, un codage ordinal ; toutes les autres variables ont un codage nominal simple.
fournisseur de services Internet pour dterminer les effets dun virus sur ses rseaux. Il a suivi le pourcentage (approximatif) de trac de messages lectroniques infects par un virus sur ses rseaux sur la dure, de la dcouverte la circonscription de la menace.
de la pollution de lair sur la sant des enfants (Ware, Dockery, Spiro III, Speizer, et Ferris Jr., 1984). Les donnes contiennent des mesures binaires rptes de ltat asthmatique denfants de la ville de Steubenville (Ohio), gs de 7, 8, 9 et 10 ans, et indiquent si la mre fumait au cours de la premire anne de lenqute.
visant proposer de meilleurs postes aux personnes dfavorises. Un chantillon de participants potentiels au programme a ensuite t prlev. Certains de ces participants ont t slectionns au hasard pour participer au programme. Chaque observation reprsente un participant au programme distinct.
Annexe
Notices
Licensed Materials Property of SPSS Inc., an IBM Company. Copyright SPSS Inc. 1989, 2010. Patent No. 7,023,453
The following paragraph does not apply to the United Kingdom or any other country where such provisions are inconsistent with local law: SPSS INC., AN IBM COMPANY, PROVIDES THIS
PUBLICATION AS IS WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF NON-INFRINGEMENT, MERCHANTABILITY OR FITNESS FOR A PARTICULAR PURPOSE. Some states do not allow disclaimer of express or implied warranties in certain transactions, therefore, this statement may not apply to you. This information could include technical inaccuracies or typographical errors. Changes are periodically made to the information herein; these changes will be incorporated in new editions of the publication. SPSS Inc. may make improvements and/or changes in the product(s) and/or the program(s) described in this publication at any time without notice. Any references in this information to non-SPSS and non-IBM Web sites are provided for convenience only and do not in any manner serve as an endorsement of those Web sites. The materials at those Web sites are not part of the materials for this SPSS Inc. product and use of those Web sites is at your own risk. When you send information to IBM or SPSS, you grant IBM and SPSS a nonexclusive right to use or distribute the information in any way it believes appropriate without incurring any obligation to you. Information concerning non-SPSS products was obtained from the suppliers of those products, their published announcements or other publicly available sources. SPSS has not tested those products and cannot conrm the accuracy of performance, compatibility or any other claims related to non-SPSS products. Questions on the capabilities of non-SPSS products should be addressed to the suppliers of those products. This information contains examples of data and reports used in daily business operations. To illustrate them as completely as possible, the examples include the names of individuals, companies, brands, and products. All of these names are ctitious and any similarity to the names and addresses used by an actual business enterprise is entirely coincidental. COPYRIGHT LICENSE: This information contains sample application programs in source language, which illustrate programming techniques on various operating platforms. You may copy, modify, and distribute these sample programs in any form without payment to SPSS Inc., for the purposes of developing,
Copyright SPSS Inc. 1989, 2010 318
319 Notices
using, marketing or distributing application programs conforming to the application programming interface for the operating platform for which the sample programs are written. These examples have not been thoroughly tested under all conditions. SPSS Inc., therefore, cannot guarantee or imply reliability, serviceability, or function of these programs. The sample programs are provided AS IS, without warranty of any kind. SPSS Inc. shall not be liable for any damages arising out of your use of the sample programs.
Trademarks
IBM, the IBM logo, and ibm.com are trademarks of IBM Corporation, registered in many jurisdictions worldwide. A current list of IBM trademarks is available on the Web at http://www.ibm.com/legal/copytrade.shmtl. SPSS is a trademark of SPSS Inc., an IBM Company, registered in many jurisdictions worldwide. Adobe, the Adobe logo, PostScript, and the PostScript logo are either registered trademarks or trademarks of Adobe Systems Incorporated in the United States, and/or other countries. Intel, Intel logo, Intel Inside, Intel Inside logo, Intel Centrino, Intel Centrino logo, Celeron, Intel Xeon, Intel SpeedStep, Itanium, and Pentium are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States and other countries. Linux is a registered trademark of Linus Torvalds in the United States, other countries, or both. Microsoft, Windows, Windows NT, and the Windows logo are trademarks of Microsoft Corporation in the United States, other countries, or both. UNIX is a registered trademark of The Open Group in the United States and other countries. Java and all Java-based trademarks and logos are trademarks of Sun Microsystems, Inc. in the United States, other countries, or both. This product uses WinWrap Basic, Copyright 1993-2007, Polar Engineering and Consulting, http://www.winwrap.com. Other product and service names might be trademarks of IBM, SPSS, or other companies. Adobe product screenshot(s) reprinted with permission from Adobe Systems Incorporated. Microsoft product screenshot(s) reprinted with permission from Microsoft Corporation.
Bibliographie
Barlow, R. E., D. J. Bartholomew, D. J. Bremner, et H. D. Brunk. 1972. Statistical inference under order restrictions. New York: John Wiley and Sons. Bell, E. H. 1961. Social foundations of human behavior: Introduction to the study of sociology. New York: Harper & Row. Benzcri, J. P. 1969. Statistical analysis as a tool to make patterns emerge from data. Dans : Methodologies of Pattern Recognition, S. Watanabe, d. New York: Academic Press. Benzcri, J. P. 1992. Correspondence analysis handbook. New York: Marcel Dekker. Bishop, Y. M., S. E. Feinberg, et P. W. Holland. 1975. Discrete multivariate analysis: Theory and practice. Cambridge, Massachusetts: MIT Press. Blake, C. L., et C. J. Merz. 1998. "UCI Repository of machine learning databases." Available at http://www.ics.uci.edu/~mlearn/MLRepository.html. Breiman, L., et J. H. Friedman. 1985. Estimating optimal transformations for multiple regression and correlation. Journal of the American Statistical Association, 80, . Buja, A. 1990. Remarks on functional canonical variates, alternating least squares methods and ACE. Annals of Statistics, 18, . Busing, F. M. T. A., P. J. F. Groenen, et W. J. Heiser. 2005. Avoiding degeneracy in multidimensional unfolding by penalizing on the coefcient of variation. Psychometrika, 70, . Carroll, J. D. 1968. Generalization of canonical correlation analysis to three or more sets of variables. Dans : Proceedings of the 76th Annual Convention of the American Psychological Association, 3, Washington, D.C.: American Psychological Association. Collett, D. 2003. Modelling survival data in medical research, 2 d. Boca Raton: Chapman & Hall/CRC. Commandeur, J. J. F., et W. J. Heiser. 1993. Mathematical derivations in the proximity scaling (PROXSCAL) of symmetric data matrices. Leiden: Department of Data Theory, University of Leiden. De Haas, M., J. A. Algera, H. F. J. M. Van Tuijl, et J. J. Meulman. 2000. Macro and micro goal setting: In search of coherence. Applied Psychology, 49, . De Leeuw, J. 1982. Nonlinear principal components analysis. Dans : COMPSTAT Proceedings in Computational Statistics, Vienne: Physica Verlag. De Leeuw, J. 1984. Canonical analysis of categorical data, 2nd d. Leiden: DSWO Press. De Leeuw, J. 1984. The Gi system of nonlinear multivariate analysis. Dans : Data Analysis and Informatics III, E. Diday, et al., d.. De Leeuw, J., et W. J. Heiser. 1980. Multidimensional scaling with restrictions on the conguration. Dans : Multivariate Analysis, Vol. V, P. R. Krishnaiah, d. Amsterdam: North-Holland. De Leeuw, J., et J. Van Rijckevorsel. 1980. HOMALS and PRINCALSSome generalizations of principal components analysis. Dans : Data Analysis and Informatics, E. Diday, et al., d. Amsterdam: North-Holland.
Copyright SPSS Inc. 1989, 2010 320
321 Bibliographie
De Leeuw, J., F. W. Young, et Y. Takane. 1976. Additive structure in qualitative data: An alternating least squares method with optimal scaling features. Psychometrika, 41, . De Leeuw, J. 1990. Multivariate analysis with optimal scaling. Dans : Progress in Multivariate Analysis, S. Das Gupta, et J. Sethuraman, ds. Calcutta: Indian Statistical Institute. Eckart, C., et G. Young. 1936. The approximation of one matrix by another one of lower rank. Psychometrika, 1, . Fisher, R. A. 1938. Statistical methods for research workers. Edimbourg: Oliver and Boyd. Fisher, R. A. 1940. The precision of discriminant functions. Annals of Eugenics, 10, . Gabriel, K. R. 1971. The biplot graphic display of matrices with application to principal components analysis. Biometrika, 58, . Gi, A. 1985. PRINCALS. Research Report UG-85-02. Leiden: Department of Data Theory, University of Leiden. Gi, A. 1990. Nonlinear multivariate analysis. Chichester: John Wiley and Sons. Gilula, Z., et S. J. Haberman. 1988. The analysis of multivariate contingency tables by restricted canonical and restricted association models. Journal of the American Statistical Association, 83, . Gower, J. C., et J. J. Meulman. 1993. The treatment of categorical information in physical anthropology. International Journal of Anthropology, 8, . Green, P. E., et V. Rao. 1972. Applied multidimensional scaling. Hinsdale, Ill.: Dryden Press. Green, P. E., et Y. Wind. 1973. Multiattribute decisions in marketing: A measurement approach. Hinsdale, Ill.: Dryden Press. Guttman, L. 1941. The quantication of a class of attributes: A theory and method of scale construction. Dans : The Prediction of Personal Adjustment, P. Horst, d. New York: Social Science Research Council. Guttman, L. 1968. A general nonmetric technique for nding the smallest coordinate space for congurations of points. Psychometrika, 33, . Hartigan, J. A. 1975. Clustering algorithms. New York: John Wiley and Sons. Hastie, T., et R. Tibshirani. 1990. Generalized additive models. Londres: Chapman and Hall. Hastie, T., R. Tibshirani, et A. Buja. 1994. Flexible discriminant analysis. Journal of the American Statistical Association, 89, . Hayashi, C. 1952. On the prediction of phenomena from qualitative data and the quantication of qualitative data from the mathematico-statistical point of view. Annals of the Institute of Statitical Mathematics, 2, . Heiser, W. J. 1981. Unfolding analysis of proximity data. Leiden: Department of Data Theory, University of Leiden. Heiser, W. J., et F. M. T. A. Busing. 2004. Multidimensional scaling and unfolding of symmetric and asymmetric proximity relations. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc.. Heiser, W. J., et J. J. Meulman. 1994. Homogeneity analysis: Exploring the distribution of variables and their nonlinear relationships. Dans : Correspondence Analysis in the Social Sciences: Recent Developments and Applications, M. Greenacre, et J. Blasius, ds. New York: Academic Press.
322 Bibliographie
Heiser, W. J., et J. J. Meulman. 1995. Nonlinear methods for the analysis of homogeneity and heterogeneity. Dans : Recent Advances in Descriptive Multivariate Analysis, W. J. Krzanowski, d. Oxford: Oxford University Press. Horst, P. 1961. Generalized canonical correlations and their applications to experimental data. Journal of Clinical Psychology, 17, . Horst, P. 1961. Relations among m sets of measures. Psychometrika, 26, . Israls, A. 1987. Eigenvalue techniques for qualitative data. Leiden: DSWO Press. Kennedy, R., C. Riquier, et B. Sharp. 1996. Practical applications of correspondence analysis to categorical data in market research. Journal of Targeting, Measurement, and Analysis for Marketing, 5, . Kettenring, J. R. 1971. Canonical analysis of several sets of variables. Biometrika, 58, . Kruskal, J. B. 1964. Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis. Psychometrika, 29, . Kruskal, J. B. 1964. Nonmetric multidimensional scaling: A numerical method. Psychometrika, 29, . Kruskal, J. B. 1965. Analysis of factorial experiments by estimating monotone transformations of the data. Journal of the Royal Statistical Society Series B, 27, . Kruskal, J. B. 1978. Factor analysis and principal components analysis: Bilinear methods. Dans : International Encyclopedia of Statistics, W. H. Kruskal, et J. M. Tanur, ds. New York: The Free Press. Kruskal, J. B., et R. N. Shepard. 1974. A nonmetric variety of linear factor analysis. Psychometrika, 39, . Krzanowski, W. J., et F. H. C. Marriott. 1994. Multivariate analysis: Part I, distributions, ordination and inference. Londres: Edward Arnold. Lebart, L., A. Morineau, et K. M. Warwick. 1984. Multivariate descriptive statistical analysis. New York: John Wiley and Sons. Lingoes, J. C. 1968. The multivariate analysis of qualitative data. Multivariate Behavioral Research, 3, . Max, J. 1960. Quantizing for minimum distortion. Proceedings IEEE (Information Theory), 6, . McCullagh, P., et J. A. Nelder. 1989. Generalized Linear Models, 2nd d. Londres: Chapman & Hall. Meulman, J. J. 1982. Homogeneity analysis of incomplete data. Leiden: DSWO Press. Meulman, J. J. 1986. A distance approach to nonlinear multivariate analysis. Leiden: DSWO Press. Meulman, J. J. 1992. The integration of multidimensional scaling and multivariate analysis with optimal transformations of the variables. Psychometrika, 57, . Meulman, J. J. 1993. Principal coordinates analysis with optimal transformations of the variables: Minimizing the sum of squares of the smallest eigenvalues. British Journal of Mathematical and Statistical Psychology, 46, . Meulman, J. J. 1996. Fitting a distance model to homogeneous subsets of variables: Points of view analysis of categorical data. Journal of Classication, 13, .
323 Bibliographie
Meulman, J. J. 2003. Prediction and classication in nonlinear data analysis: Something old, something new, something borrowed, something blue. Psychometrika, 4, . Meulman, J. J., et W. J. Heiser. 1997. Graphical display of interaction in multiway contingency tables by use of homogeneity analysis. Dans : Visual Display of Categorical Data, M. Greenacre, et J. Blasius, ds. New York: Academic Press. Meulman, J. J., et P. Verboon. 1993. Points of view analysis revisited: Fitting multidimensional structures to optimal distance components with cluster restrictions on the variables. Psychometrika, 58, . Meulman, J. J., A. J. Van der Kooij, et A. Babinec. 2000. New features of categorical principal components analysis for complicated data sets, including data mining. Dans : Classication, Automation and New Media, W. Gaul, et G. Ritter, ds. Berlin: Springer-Verlag. Meulman, J. J., A. J. Van der Kooij, et W. J. Heiser. 2004. Principal components analysis with nonlinear optimal scaling transformations for ordinal and nominal data. Dans : Handbook of Quantitative Methodology for the Social Sciences, D. Kaplan, d. Thousand Oaks, Californie: Sage Publications, Inc.. Nishisato, S. 1980. Analysis of categorical data: Dual scaling and its applications. Toronto: University of Toronto Press. Nishisato, S. 1984. Forced classication: A simple application of a quantication method. Psychometrika, 49, . Nishisato, S. 1994. Elements of dual scaling: An introduction to practical data analysis. Hillsdale, New Jersey: Lawrence Erlbaum Associates, Inc. Pratt, J. W. 1987. Dividing the indivisible: Using simple symmetry to partition variance explained. Dans : Proceedings of the Second International Conference in Statistics, T. Pukkila, et S. Puntanen, ds. Tampere, Finlande: Universit de Tampere. Price, R. H., et D. L. Bouffard. 1974. Behavioral appropriateness and situational constraints as dimensions of social behavior. Journal of Personality and Social Psychology, 30, . Ramsay, J. O. 1989. Monotone regression splines in action. Statistical Science, 4, . Rao, C. R. 1973. Linear statistical inference and its applications, 2nd d. New York: John Wiley and Sons. Rao, C. R. 1980. Matrix approximations and reduction of dimensionality in multivariate statistical analysis. Dans : Multivariate Analysis, Vol. 5, P. R. Krishnaiah, d. Amsterdam: North-Holland. Rickman, R., N. Mitchell, J. Dingman, et J. E. Dalen. 1974. Changes in serum cholesterol during the Stillman Diet. Journal of the American Medical Association, 228, . Rosenberg, S., et M. P. Kim. 1975. The method of sorting as a data-gathering procedure in multivariate research. Multivariate Behavioral Research, 10, . Roskam, E. E. 1968. Metric analysis of ordinal data in psychology. Voorschoten: VAM. Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function I. Psychometrika, 27, . Shepard, R. N. 1962. The analysis of proximities: Multidimensional scaling with an unknown distance function II. Psychometrika, 27, . Shepard, R. N. 1966. Metric structures in ordinal data. Journal of Mathematical Psychology, 3, .
324 Bibliographie
Tenenhaus, M., et F. W. Young. 1985. An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis, and other methods for quantifying categorical multivariate data. Psychometrika, 50, . Theunissen, N. C. M., J. J. Meulman, A. L. Den Ouden, H. M. Koopman, G. H. Verrips, S. P. Verloove-Vanhorick, et J. M. Wit. 2003. Changes can be studied when the measurement instrument is different at different time points. Health Services and Outcomes Research Methodology, 4, . Tucker, L. R. 1960. Intra-individual and inter-individual multidimensionality. Dans : Psychological Scaling: Theory & Applications, H. Gulliksen, et S. Messick, ds. New York: John Wiley and Sons. Van der Burg, E. 1988. Nonlinear canonical correlation and some related techniques. Leiden: DSWO Press. Van der Burg, E., et J. De Leeuw. 1983. Nonlinear canonical correlation. British Journal of Mathematical and Statistical Psychology, 36, . Van der Burg, E., J. De Leeuw, et R. Verdegaal. 1988. Homogeneity analysis with k sets of variables: An alternating least squares method with optimal scaling features. Psychometrika, 53, . Van der Ham, T., J. J. Meulman, D. C. Van Strien, et H. Van Engeland. 1997. Empirically based subgrouping of eating disorders in adolescents: A longitudinal perspective. British Journal of Psychiatry, 170, . Van der Kooij, A. J., et J. J. Meulman. 1997. MURALS: Multiple regression and optimal scaling using alternating least squares. Dans : Softstat 97, F. Faulbaum, et W. Bandilla, ds. Stuttgart: Gustav Fisher. Van Rijckevorsel, J. 1987. The application of fuzzy coding and horseshoes in multiple correspondence analysis. Leiden: DSWO Press. Verboon, P., et R. A. Van der Lans. 1994. Robust canonical discriminant analysis. Psychometrika, 59, . Verdegaal, R. 1985. Meer sets analyse voor kwalitatieve gegevens (en nerlandais). Leiden: Department of Data Theory, University of Leiden. Vlek, C., et P. J. Stallen. 1981. Judging risks and benets in the small and in the large. Organizational Behavior and Human Performance, 28, . Wagenaar, W. A. 1988. Paradoxes of gambling behaviour. Londres: Lawrence Erlbaum Associates, Inc. Ware, J. H., D. W. Dockery, A. Spiro III, F. E. Speizer, et B. G. Ferris Jr.. 1984. Passive smoking, gas cooking, and respiratory health of children living in six cities. American Review of Respiratory Diseases, 129, . Winsberg, S., et J. O. Ramsay. 1980. Monotonic transformations to additivity using splines. Biometrika, 67, . Winsberg, S., et J. O. Ramsay. 1983. Monotone spline transformations for dimension reduction. Psychometrika, 48, . Wolter, K. M. 1985. Introduction to variance estimation. Berlin: Springer-Verlag. Young, F. W. 1981. Quantitative analysis of qualitative data. Psychometrika, 46, . Young, F. W., J. De Leeuw, et Y. Takane. 1976. Regression with qualitative and quantitative variables: An alternating least squares method with optimal scaling features. Psychometrika, 41, .
325 Bibliographie
Young, F. W., Y. Takane, et J. De Leeuw. 1978. The principal components of mixed measurement level multivariate data: An alternating least squares method with optimal scaling features. Psychometrika, 43, . Zeijl, E., Y. te Poel, M. du Bois-Reymond, J. Ravesloot, et J. J. Meulman. 2000. The role of parents and peers in the leisure activities of young adolescents. Journal of Leisure Research, 32, .
Index
Ajustement Dans lanalyse de corrlation canonique non linaire, 47 Alpha de Cronbach Dans lanalyse en composantes principales nominales, 150 Analyse de corrlation canonique non linaire, 43, 4647, 196 Barycentres, 211 coordonnes des modalits, 210 Corrlations entre composantes, 205, 207 Diagrammes, 43 Fonctionnalits supplmentaires, 49 Pondrations, 205 quantications, 208 rcapitulatif de lanalyse, 204 statistiques, 43 Analyse de correspondance multiple, 59, 64, 234 Coordonnes des objets, 239, 243 Enregistrement de variables, 68 Fonctionnalits supplmentaires, 71 Mesures de discrimination, 240 Niveau de codage optimal, 61 rcapitulatif du modle, 238 Valeurs affectes aux modalits, 241 Valeurs loignes, 246 Analyse des correspondances, 50, 5253, 5556, 222, 224 contributions, 229 Diagrammes, 50 diagrammes des coordonnes principales des colonnes, 230 diagrammes des coordonnes principales des lignes, 230 Dimensions, 228 Fonctionnalits supplmentaires, 58 Standardisation, 223 statistiques, 50 Analyse en composantes principales qualitatives, 28, 34, 145, 158 Coordonnes des objets, 153, 156, 176 Corrlations entre composantes, 154, 158, 175 Enregistrement de variables, 38 Fonctionnalits supplmentaires, 42 Historique des itrations, 150 Niveau de codage optimal, 30 points de modalit, 178 quantications, 151, 171 rcapitulatif du modle, 150, 156, 174 ANOVA Dans la rgression nominale, 24 Barycentres Dans lanalyse de corrlation canonique non linaire, 47, 211 barycentres projets Dans lanalyse de corrlation canonique non linaire, 211 coefcient de variation dans le dpliage multidimensionnel, 274, 277, 283, 290, 300 coefcients Dans la rgression nominale, 112 Coefcients de rgression Dans la rgression nominale, 24 Conguration initiale Dans la rgression nominale, 21 Dans lanalyse de corrlation canonique non linaire, 47 dans le dpliage multidimensionnel, 91 Dans le positionnement multidimensionnel, 81 contributions Dans lanalyse des correspondances, 229 Coordonnes de lespace commun dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 coordonnes de lespace individuel dans le dpliage multidimensionnel, 95 coordonnes des modalits Dans lanalyse de corrlation canonique non linaire, 210 Coordonnes des objets Dans lanalyse de corrlation canonique non linaire, 47 Dans lanalyse en composantes principales nominales, 36, 153, 156, 176 Dans une analyse de correspondance multiple, 66, 239, 243 Corrlations Dans le positionnement multidimensionnel, 85 Corrlations entre composantes Dans lanalyse de corrlation canonique non linaire, 47, 207 Dans lanalyse en composantes principales nominales, 36, 154, 158, 175 Corrlations partielles Dans la rgression nominale, 113 Corrlations simples Dans la rgression nominale, 113 Critres ditration dans le dpliage multidimensionnel, 91 Dans le positionnement multidimensionnel, 81
326
327 Index
Dpliage multidimensionnel, 87, 271, 294 dgnrer les solutions, 271 dpliage tridimensionnel , 278 Diagrammes, 87, 93 espace commun, 275, 278, 284, 291, 301, 305 espaces individuels, 285, 292 Fonctionnalits supplmentaires, 97 mesures, 274, 277, 283, 290, 300, 304 Modle, 88 Options, 91 restrictions sur lespace commun., 90 Rsultats, 95 statistiques, 87 transformations de proximit, 302, 306 dpliage tridimensionnel dans le dpliage multidimensionnel, 278 diagramme de dispersion de lajustement dans le dpliage multidimensionnel, 93 diagramme join de lespace commun dans le dpliage multidimensionnel, 275, 278, 284, 291, 301, 305 diagramme joint des espaces individuels dans le dpliage multidimensionnel, 285, 292 diagrammes Dans la rgression nominale, 27 Diagrammes Dans lanalyse de corrlation canonique non linaire, 47 Dans lanalyse des correspondances, 56 Dans le positionnement multidimensionnel, 8384 diagrammes dparts multiples dans le dpliage multidimensionnel, 93 Diagrammes de barycentres projets Dans lanalyse en composantes principales nominales, 40 Diagrammes de corrlations Dans le positionnement multidimensionnel, 83 diagrammes de lespace commun nal dans le dpliage multidimensionnel, 93 diagrammes de lespace commun initial dans le dpliage multidimensionnel, 93 diagrammes de mesures de discrimination Dans une analyse de correspondance multiple, 69 Diagrammes de modalits Dans lanalyse en composantes principales nominales, 40 Dans une analyse de correspondance multiple, 69 Diagrammes de points dobjet Dans lanalyse en composantes principales nominales, 39 Dans une analyse de correspondance multiple, 69 diagrammes de pondration des espaces dans le dpliage multidimensionnel, 93 Diagrammes de pondration despace individuel dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83
Diagrammes de saturations Dans lanalyse en composantes principales nominales, 41 Diagrammes de Shepard dans le dpliage multidimensionnel, 93 Diagrammes de stress dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83 Diagrammes de transformation Dans la rgression nominale, 115 Dans lanalyse en composantes principales nominales, 40 dans le dpliage multidimensionnel, 93, 302, 306 Dans le positionnement multidimensionnel, 83, 267 Dans une analyse de correspondance multiple, 69 diagrammes des coordonnes principales des colonnes Dans lanalyse des correspondances, 230 diagrammes des coordonnes principales des lignes Dans lanalyse des correspondances, 230 diagrammes des rsidus dans le dpliage multidimensionnel, 93 Diagrammes despace commun dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83 Diagrammes despace individuel dans le dpliage multidimensionnel, 93 Dans le positionnement multidimensionnel, 83 Diagrammes doubles Dans lanalyse des correspondances, 56 Dans lanalyse en composantes principales nominales, 39 Dans une analyse de correspondance multiple, 69 Diagrammes triples Dans lanalyse en composantes principales nominales, 39 Dimensions Dans lanalyse des correspondances, 53, 228 Discrtisation Dans la rgression nominale, 19 Dans lanalyse en composantes principales nominales, 32 Dans une analyse de correspondance multiple, 62 Distances dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 elastic net Dans la rgression nominale, 23 espace commun dans le dpliage multidimensionnel, 275, 278, 284, 291, 301, 305 Dans le positionnement multidimensionnel, 265, 268 espaces individuels dans le dpliage multidimensionnel, 285, 292 chiers dexemple emplacement, 307
328 Index
Historique des itrations Dans lanalyse en composantes principales nominales, 36, 150 dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 Dans une analyse de correspondance multiple, 66 importance Dans la rgression nominale, 113 Index estimatif de non-dgnrescence de Shepard dans le dpliage multidimensionnel, 274, 277, 283, 290, 300 Indices dintermixit de DeSarbo dans le dpliage multidimensionnel, 274, 277, 283, 290, 300 Inertie Dans lanalyse des correspondances, 55 intercorrlations Dans la rgression nominale, 111 Joindre les diagrammes de modalits Dans lanalyse en composantes principales nominales, 40 Dans une analyse de correspondance multiple, 69 lasso Dans la rgression nominale, 23 legal notices, 318 Matrice de corrlation Dans lanalyse en composantes principales nominales, 36 Dans une analyse de correspondance multiple, 66 mesures Dans la rgression nominale, 113 Mesures de discrimination Dans une analyse de correspondance multiple, 66, 240 Mesures de distance Dans lanalyse des correspondances, 53 Mesures du stress dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85, 263, 268 Mises jour relaxes Dans le positionnement multidimensionnel, 81 modle didentit dans le dpliage multidimensionnel, 88 modle Euclidien gnralis dans le dpliage multidimensionnel, 88 modle Euclidien pondr dans le dpliage multidimensionnel, 88 modles de positionnement dans le dpliage multidimensionnel, 88 Niveau de codage optimal Dans lanalyse en composantes principales nominales, 30
Dans une analyse de correspondance multiple, 61 normalisation principale Dans lanalyse des correspondances, 223 normalisation principale en colonne Dans lanalyse des correspondances, 223 normalisation principale en ligne Dans lanalyse des correspondances, 223 normalisation symtrique Dans lanalyse des correspondances, 223 Objets supplmentaires Dans la rgression nominale, 21 points de modalit Dans lanalyse en composantes principales nominales, 178 Pondration des variables Dans lanalyse en composantes principales nominales, 30 Dans une analyse de correspondance multiple, 61 Pondrations Dans lanalyse de corrlation canonique non linaire, 47, 205 pondrations des dimensions dans le dpliage multidimensionnel, 285, 292 Pondrations des espaces individuels dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 Positionnement multidimensionnel, 72, 7478, 252 Diagrammes, 72, 8384 Diagrammes de transformation, 267 espace commun, 265, 268 Fonctionnalits supplmentaires, 86 Mesures du stress, 263, 268 Modle, 79 Options, 81 Restrictions, 80 Rsultats, 85 statistiques, 72 PREFSCAL, 87 Proximits transformes dans le dpliage multidimensionnel, 95 Dans le positionnement multidimensionnel, 85 quantications Dans lanalyse de corrlation canonique non linaire, 208 Dans lanalyse en composantes principales nominales, 151, 171 R multiple Dans la rgression nominale, 24 R2 Dans la rgression nominale, 112
329 Index
rcapitulatif du modle Dans une analyse de correspondance multiple, 238 rgression de crte Dans la rgression nominale, 23 Rgression nominale, 16, 99 Corrlations, 112113 diagrammes, 16 Diagrammes de transformation, 115 enregistrer, 26 Fonctionnalits supplmentaires, 27 importance, 113 intercorrlations, 111 Niveau de codage optimal, 17 qualit de lajustement, 112 rgularisation, 23 Rsidus, 116 statistiques, 16 Rsidus Dans la rgression nominale, 116 Restrictions Dans le positionnement multidimensionnel, 80 restrictions sur lespace commun. dans le dpliage multidimensionnel, 90 Standardisation Dans lanalyse des correspondances, 53, 223 Statistiques de conance Dans lanalyse des correspondances, 55 statistiques descriptives Dans la rgression nominale, 24 stress pnalis dans le dpliage multidimensionnel, 274, 283, 290, 300, 304 terme de pnalit dans le dpliage multidimensionnel, 91 trademarks, 319 transformations de proximit dans le dpliage multidimensionnel, 88 Valeurs affectes aux modalits Dans la rgression nominale, 24 Dans lanalyse de corrlation canonique non linaire, 47 Dans lanalyse en composantes principales nominales, 36 Dans une analyse de correspondance multiple, 66, 241 valeurs dajustement Dans lanalyse de corrlation canonique non linaire, 204 valeurs de perte Dans lanalyse de corrlation canonique non linaire, 204 Valeurs loignes Dans une analyse de correspondance multiple, 246 valeurs manquantes Dans la rgression nominale, 20
Valeurs manquantes Dans lanalyse en composantes principales nominales, 33 Dans une analyse de correspondance multiple, 63 Valeurs propres Dans lanalyse de corrlation canonique non linaire, 204 Dans lanalyse en composantes principales nominales, 150, 156, 174 Variables indpendantes transformes Dans le positionnement multidimensionnel, 85 Variance explique par Dans lanalyse en composantes principales nominales, 36, 150, 174