You are on page 1of 18

Les traitements lmentaires :

Les analyses univaries (ou tris plat) :

Concernent le traitement dune seule variable


Ont pour objet de synthtiser et danalyser les informations
disponibles sur cette variable

Les analyses bivaries (ou tris croiss)

Ont pour objet de mettre en vidence les relations ventuelles qui


existent entre 2 variables analyses simultanment

Les analyses multivaries


Les mthodes descriptives :

Cherchent tudier les relations entre 2 groupes de variables


Lune dentre elles mesure un phnomne que lon cherche
expliquer
Les autres reprsentent des phnomnes qui sont supposs
influencer et dterminer le prcdent

Les mthodes explicatives :

Prennent en compte un ensemble de variables


Cherchent structurer ou rsumer un groupe de variables
Cherchent dcrire de faon synthtique la structure des donnes
disponibles
Y = aX + b
Y
Variable expliquer
Endogne
Dpendante

X
Variable explicative
Exogne
Indpendante

La rgression linaire
Simple : Explication dune variable quantitative Y laide
dune variable galement quantitative
Multiple : utilisation de plusieurs variables explicatives (X1,
X2) pour expliquer Y
Lanalyse de la variance (ANOVA)
Lanalyse discriminante
Lanalyse conjointe (MONANOVA)
La segmentation

Les mthodes descriptives :

Lanalyse en composantes principales (ACP)


Lanalyse typologique
Lanalyse factorielle des correspondances

Les mthodes avances danalyse multivarie :


Lanalyse canonique :

Etend la rgression au cas o il y a plusieurs variables expliquer


Peut tre considre comme la plus gnrale des mthodes fondes
sur le modle linaire

Les modles de causalit (ou quations structurelles) :

Constituent le stade actuellement le plus avanc des mthodes


danalyse de donnes
Permettent dtudier simultanment la structure des relations entre
variables et la qualit de la mesure de ces variables

Rfrences Bibliographiques
-

MARKET : tudes et recherches en Marketing

Auteurs : Y. Evrard, B.Pras & E. Roux


Editeur : Dunod
-

Les enqutes par questionnaire avec Sphinx

Auteur : Stphane Ganassali


Editeur : Pearson Education
-

Etudes de march

Auteurs : Jean-Luc Giannelloni & Eric Vernette


Editeur : Vuibert
-

Le traitement des donnes en marketing

Auteur : Jean-Pierre Vedrine


Editeur : Les ditions dOrganisation

Les traitements lmentaires :


Les analyses univaries
Introduction :

Les analyses univaries concernent le traitement dune seule


variable
Elles ont pour objet de synthtiser et danalyser les informations
disponibles sur cette variable
Ces donnes peuvent provenir de sources diffrentes
Donns dobservations
Donnes exprimentales
Sries statistiques
Rsultats dune question pose dans le cadre dun sondage

Exemples :

Le nombre dentres dans un hypermarch diffrentes heures de la


journe
Les ventes dun produit associes un conditionnement
exprimental
Lvolution des ventes dun produit sur un certain nombre dannes
Les rponses la question : possdez-vous un auto-radio ?

Donnes quantitatives (mtriques) :

Dans le cadre dun questionnaire, elles apparaissent chaque fois que


la personne interroge se voit demander la valeur quelle donne la
variable concerne
Pour chaque individu I, une valeur XIK sera obtenue pour cette
variable. Si lenqute porte sur n individus, la variable sera associe
un vecteur de n lments
La synthtisation de ces donnes peut tre ralise travers le
calcul de divers indicateurs que fournissent la plupart des logiciels

Donnes qualitatives (Nominales) :

Dans le cadre dun questionnaire, elles apparaissent chaque fois que


la personne interroge a le choix entre plusieurs modalits qui lui
sont proposes explicitement ou implicitement (Cas dune question
ouverte avec post-codification)
Pour chaque individu I, la rponse correspond un code ou
ventuellement plusieurs si le choix est multiple

Sur lensemble de la population enqute, on calcule alors la


frquence absolue (le nombre de fois quun code j donn est apparu
pour la variable k tudie)

Donnes qualitatives (Ordinales) :

Dans le cadre dun questionnaire, elles apparaissent chaque fois que


la personne interroge se voit demander de classer plusieurs items
proposs
Sur lensemble de la population enqute, il sera ainsi possible de
comptabiliser :
Le nombre de fois quun item donn a t class en 1ere
position, ou en 2e,
Le nombre de fois quun item donn a t class avant un
autre item ; ce type de rsultats permettra dtablir une
matrice des prfrences

Les indicateurs de position


Cherchent rsumer par une caractristique de tendance centrale les
niveaux pris par une variable

Le mode : modalit pour laquelle les observations sont les plus


nombreuses (Mo)
La mdiane : Valeur qui divise la population tudie en 2 parties
gales (Me)
La moyenne : Gnralement considre comme naturellement la
tendance centrale de la distribution dune variable numrique : XAk =
XIK / n

Les indicateurs de dispersion


mesurent la plus ou moins grande dispersion des valeurs autour de leur
tendance centrale

Ltendue : Intervalle qui spare les deux valeurs extrmes : E =


XMAX XMIN
La variance : Moyenne des carrs des carts par rapport la
moyenne (obtenue sur chantillon) : S2k = (XIK XAK) 2 / (n 1)
Lcart-type : Racine carre de la variance : Sk = [(XIK XAK) 2 / (n
1)] 1 /2
Le coefficient de variation : Pourcentage permettant de comparer la
dispersion de variables ayant des moyennes diffrentes : C.V. = SK /
XAK

Le test de moyenne

Il sagit de comparer la moyenne obtenue sur un chantillon A XA


une valeur prdtermine
Lhypothse nulle peut tre formule de 2 faons :
Sous forme dingalit (par exemple XA > ) : il sagira alors
dun test unilatral
Sous forme dgalit (par exemple XA = ) : Il sagira alors
dun test bilatral
Deux test sont utilisables (z ou t) selon 2 conditions :
Connait-on ou non lcart-type de la variable dans la
population () ? Si oui, on utilisera le test z
Sinon (ce qui est le cas le plus frquent dans la pratique), on
utilisera lcart-type de lchantillon () comme estimateur de
lcart-type (inconnu) de la population : le choix dpend alors
de la taille de lchantillon : si n < 30, on utilisera le test t
(sinon on utilisera le test z)
Le test z consiste alors calculer la valeur z = |XA - | / SXA o
lcart-type de la moyenne SXA = S / n1/2
Valeur observe de z est compare la valeur z correspondant au
seuil de signification retenu. Z suit une distribution normale, cest
donc sur une table de cette distribution que lon trouvera z.
Si lon dsire travailler avec un seuil de confiance (1- ), un
intervalle de confiance pour la moyenne est obtenu laide de
lexpression : = XA +/- z/2. sXA
Dans le cas du test t, la valeur tester est calcule de la mme
faon, mais la valeur t est lue dans la table de la loi de Student
(n-1) degrs de libert (au-del de 30 observations, la distribution de
t est approximativement normale)
Dans le cas dune proportion (ou pourcentage), la dmarche
utiliser est analogue. Soit P la proportion thorique , p la
proportion observe et sp lcart-type qui lui est associ : sp = [p(1p)/n]1/2 on calcule alors : z = |P-p| / sp

Exemple 1 :
-

Lassociation des tudiants dune universit envisage douvrir un


cin-club ; afin den valuer la frquentation, elle a ralis une
enqute par sondage sur un chantillon de 400 individus.
Une moyenne de frquentation de 10 sances par an et par individu
a t obtenue avec un cart-type gal 20.
Au seuil de 5%, donnez lintervalle de confiance de la moyenne de
frquentation attendue (relle) par tudiant, puis de la frquentation

globale annuelle (luniversit comprend 5000 tudiants). On donne


z/2 = 1,96
= XA +/- z/2. sXA
Avec SXA = S/n1/2 = 20/4001/2 = 1
= 10 +/- 1,96 x 1 = 10 +/- 1,96
a 95 chances sur 100 de se situer dans la fourchette (ou intervalle
de confiance) [8,04 ; 11,96]
Si luniversit comprend 5000 tudiant, une frquentation globale de
50000 places peut tre attendue en moyenne ; la frquentation
globale annuelle a 95% de chances de se situer dans lintervalle
[40200 ; 59800]

Exemple 2 :
-

Rpondre aux mmes questions au cas o lassociation se serait


limite 21 interviews au lieu dutiliser un chantillon de 400
personnes. On donne t = 2,086
Dans ce cas, la moyenne dchantillon suit une loi de Student 20
degrs de libert (n-1)
Donc = 10 +/- 2,086 x (20/211/2) = 10 +/- 9,10
a 95 chances sur 100 de se situer dans la fourchette |0,9 : 19,1]

Les traitements lmentaires :


Les analyses bivaries
Introduction :

Les analyses bivaries concernent le traitement de deux variables.


Elles ont pour objet de mettre en vidence les relations ventuelles
qui existent entre deux variables analyses simultanment.
Dans la plupart des cas, lanalyste cherchera expliquer une des
deux variables (dite expliquer ) laide de lautre (dite
explicative )

Exemples :

Le fait de changer un conditionnement a-t-il un effet sur le niveau


des ventes dun produit donn ? le conditionnement joue ici le rle
de variable explicative et le niveau des ventes, de variables
expliquer.
Le fait de possder un four micro-ondes dpend-il de lge ou de la
taille de la famille ? la possession ou non du fout micro-ondes est
la variable expliquer, lge ou la taille de la famille sont des
variables explicatives

Traitement des tris croiss et nature des donnes :


1. Prsentations des tris croiss :
Dans la mesure o une question peut relever
fondamentalement de trois niveaux de mesures diffrents

(mtrique, nominale ou ordinale), on comptera neuf types de


croisement possibles entre les questions QI et QJ
2. Analyse des tris croiss :
Les principaux tests correspondant aux plus frquents
croisements dans lanalyse bivarie seront prsents
Prsentations des tris croiss :

Qi quantitatif x QJ quantitatif : tude des relations entre 2 sries


de n chiffres sil y a n questionnaires.
Exemple : Dans le questionnaire FAT (France Air Transport),
tude des relations entre le nombre de vols effectus (Q1) et
la taille de lE/se (Q11)
QI nominal x QJ nominal : Croisement le plus frquent qui se
traduit par la formation dun tableau de contingence o, en ligne
figure les modalits de la variable expliquer et en colonnes celles
de la variable explicative.
Exemple : Croisement entre la question ( sur lobjet du voyage
et la question 6 : le fait de voyager pour affaires ou pour
raisons de loisirs implique-t-elle un statut dabonn ou non
QI ordinal x QJ ordinal : mise en correspondance de deux
classements au niveau de chaque niveau interrog ou sur
lensemble de lchantillon
Exemple : Croisement entre la question 4 et un classement a
priori correspondant aux prfrences de la direction de la
compagnie
QI quantitatif x QJ nominal : Correspondant un tri--plat de la
variable quantitative pour chacune des modalits de la variable
nominale qui joue le rle de variable explicative
Exemple : Croisement entre la question 1 et la question 9 ;
lappartenance une classe dge influence-t-elle le nombre
annuel de vols de la personne interroges
Qi ordinal x QJ nominal : Reprage des tans donns a question
Qi pour diffrentes classes de la question Qj nominale explicative
Exemple : Croisement entre la question 4 et la question 8 : Le
fait de relever dun statut familial donn entrane-t-il des
prfrences particulires au sujet des projets damliorations
des prestations de la compagnie ?

Analyse des tris croiss :


Nominal
QI
QJ

Ordinal

Quantitatif

Nomina -Test du khi-Deux


l
-Test de
KologomorovSmirnov
-test de
comparaison de
frquences
Ordinal

-Test de KruskalWallis
-Test de Wilcoxon du
rang et du signe

-Test F (ANOVA)
-Test de
comparaison de
moyennes

-Test de Wilcoxon de
la somme des rangs
Corrlation des
rangs de Spearman
Test de Kendall

Quantit
atif

-Coefficient de
corrlation de
Pearson
-Test de
comparaison de
moyenne

Le test de comparaison des moyennes :

Cest la statistique classique lorsque deux populations sont


concernes. Lanalyste dispose des donnes suivantes :
- Deux populations 1 et B respectivement deffectifs nA et nB
- La moyenne de la variable tudie est XA dans la population A et XB
dans la population B
- La variance de la variable analyse est sA pour A et sB pour B

Dans la mesure o lon estime que XA et XB suivent une loi normale,


respectivement de moyenne A et B et dcart type , on montre que
la diffrence D = XA XB suit galement une loi normale de
moyenne (A - B) et dcart-type D avec :
Lintervalle de confiance de la diffrence de moyenne est donn par
Lhypothse nulle H0 correspond au cas o la diffrence D = A - B
des moyennes est nulle. Sous H0 la variable rduite devient :

La valeur z ainsi calcule doit tre compare avec la valeur lue dans
la table normale pour le seuil de confiance dsir et compte tenu du
caractre unilatral ou bilatral du test
Pour un test bilatral par exemple, H0 sera rejet au seuil de
confiance de 5% si |z| > 1,96. Pour des petits chantillons (nA et nB <
30), on utilisera le test t de student
Quand plus de deux populations sont concernes, on aura recours
au test F de Fischer (ce tst sera abord dans la partie traitant de
lANOVA)

Exemple :
Dans le cadre de ltude FAT, le croisement de la question 1 (Nombre
de vols par an) et de la question 5 (Motifs du voyage) fait apparatre les
rsultats suivants :
-

Voyages pour affaires (A) : na = 155 ; nombre de vols moyens XA =


10 avec sA2 = 64
Voyages pour loisirs (B) : nB = 75 ; XB = 3 avec sB2 = 25

Testez si le motif du dplacement entrane des diffrences de nombres


de vols au seuil de confiance de 5%
Rponse :
H0 : quelque soit le motif du dplacement, le nombre moyen de vols est
le mme
Ou H0 : A = B
Lcart-type des diffrences de moyenne D est donn par :
D = [sA2/nA + sB2/nB]1/2
Donc D = [64/155 + 25/75]1/2 = 0,86
Sous H0 : z= (XA XB) / D
Donc = (10-3) / 0,86 = 8,14
Lhypothse nulle pour laquelle il nexiste pas de diffrence de nombre de
vols selon le motif de dplacement peut tre rejete puisque 8,14 > 1 ,96
Conclusion : Au seuil de confiance de 5%, le motif de dplacement
influence significativement le nombre de vols

Les analyses multivaries :


Introduction :

Les analyses multivaries permettent le traitement simultan de


plusieurs variables
Les mthodes explicatives cherchent tudier les relations entre
deux groupes de variables
Lune dentre elles mesure un phnomne que lon cherche
expliquer (ou plusieurs dans le cas de lanalyse canonique)
Les autres variables (dites explicatives) reprsentent des
phnomnes qui sont supposs influencer et dterminer le
prcdent

Les mthodes explicatives les plus usuelles :

La rgression linaire

Simple : explication dune variable quantitative Y laide


dune variable galement quantitative X
Multiple : Utilisation de plusieurs variables explicatives (X1, X2,
) pour expliquer Y
Lanalyse de la variance (ANOVA)
Lanalyse discriminante
Lanalyse conjointe (MONANOVA)
La segmentation

La rgression linaire :

Parmi les mthodes explicatives, cest la plus connue et la plus


utilise
Elle a pour objet lexplication dune variable quantitative Y laide
dune ou plusieurs variables galement quantitatives X1, X2,, Xn,
par une relation du type : Y = a0+a1.X1+a2.X2++an.Xn ou par le
biais de relations quil est possible de ramener cette formule la
suite de transformations mathmatiques appropries
La dtermination des paramtres a0 ,a1, a2, an est lobjet du calcul de
la rgression(mthode des moindres carrs)

Exemples :

Dtermination des attributs les plus importants dans la formation de


lapprciation des consommateurs vis--vis de diffrentes marques
concurrentes
Recherche des relations ventuelles qui existent entre les ventes
dune entreprise et les variables matrialisant son marketing-mix
(p.e prix de vente, dpenses publicitaires)
Explication des performances commerciales de diffrents points de
vente en fonction de leur caractristiques (p.e surface, niveau de
prix, taille du parking, population de la zone de chalandise, structure
de cette population,)

Expos technique de la mthode des moindres carrs :

Nous travaillerons dans le cas dune rgression linaire simple (cas


o nintervient quune seule variable explicative), et donc sur un
modle de type : Y = a0 + a1.X1
Il sagit de dterminer les coefficients a0 (ordonne lorigine) et a1
(coefficient de rgression) de telle sorte que ce modle, qui
correspond lquation dune droite, reproduise au mieux les
relations observes entre les 2 variables
Les donnes dont on dispose sont constitues de n couples de
valeurs (X1, Y1) qui forment un nuage de point sur le plan (X,Y). La

droite qui reprsente le mieux les volutions relatives des deux


variables est celle qui est en moyenne la plus proche des
lments du nuage de points
Cette proximit se mesure par les carts entre les Y1 observs et les
valeurs thoriques Y1* calcules lquation du modle pour une
valeur X1 donne
Ainsi, la meilleure droite est celle qui permet de minimiser E2,
somme des carrs des carts entre les Y1 et les Y1*, avec : E2 = (Yi
Yi*) = (Yi a0 a1.X1)
Dans cette expression, les valeurs Yi et Xi proviennent des
observations et les coefficients a0 et a1. La rsolution de ce systme
de drivs fournit le coefficient de rgression a1 et lordonne
lorigine a0 de la droite des moindres carrs :
avec a1 = COV(Y,X)/VAR(X) = Xi . Yi n XiYi / (Xi) - n

Lanalyse de la variance :

On utilise souvent lexpression ANOVA pour dsigner lanalyse de la


variance
LANOVA a pour objet lexplication dune variable quantitative Y laide de
variables qualitatives Xj sur lesquelles on a dfini Kj modalits
Cette analyse permet de tester la signification des diffrences de
moyennes observes sur plusieurs populations caractrises par
diffrentes combinaisons de modalits des variables explicatives
Lexprimentation commerciale est un des principaux domaines
dapplication de lanalyse de la variance

Exemple :

Dans le cadre dun pr-test publicitaire, plusieurs affiches sont en


concurrence
elles se distinguent les unes des autres par le thme voqu
(premire variable explicative), leur graphisme (deuxime variable)
et la couleur dominante utilise (troisime variable).
Chaque variante est soumise une partie de lchantillon et se voit
attribuer une note (variable Y) de la part de chacune des personnes
interroges
Il sagit alors dapprcier le caractre significatif des diffrences de
notes obtenues, mais aussi de reprer quels sont les facteurs,
graphismes ou couleurs qui ont le plus contribu ces diffrences

Aspects techniques de lANOVA un facteur :

LANOVA a un facteur peut tre considre comme la gnralisation


du test de moyennes (chapitre sur les analyses bivaries) au cas o
il sagit de comparer non plus deux moyennes, mais simultanment
k moyennes correspondant k modalits dune variable explicative
(ou facteur)
Deux questions sont rsoudre par lANOVA un facteur : y a-t-il
une liaison entre la variable expliquer et la variable explicative ?
si oui, quelles sont les modalits qui contribuent cette relation ?
La premire question peut tre vue comme un cas danalyse
bivarie (liaison entre une variable quantitative et une variable
qualitative) et se formule par lhypothse nulle suivante : la valeur
moyenne de la variable expliquer est la mme pour toutes les
modalits de la variable explicative, si cette hypothse nulle est
dmentie par le test, lexistence dune liaison sera tablie
Si la relation est tablie au niveau global, on va sintresser aux
multiples comparaisons entre modalits de faon tudier leur
poids relatif dans la liaison (ceci revient comparer deux deux
toutes les modalits de la variable explicative, de faon voir celles
qui sont significativement diffrentes entre elles)
Les donnes issues dune exprimentation sont reproduite sur un
tableau o figurent en colonne les k modalits du facteur et en
lignes les n observations ralises pour chacune de ces modalits
(ainsi, dans la case ij du tableau on trouve Yij, rsultat de
lobservation i pour la modalit j)
Au total, N= k.n observations ont t ralises
La dcomposition de la variance totale de la variable expliquer (ou
Dispersion Totale) en une variable entre les modalits, ou variance
intergroupes (Dispersion Factorielle) et une variation au sein des
modalits, ou variance intragroupe (Dispersion Rsiduelle) constitue
lquation de lANOVA

Lquation de lANOVA

On note :
M=ijYij / n.k la moyenne gnrale de la variable
expliquer Y (appele aussi grande moyenne )
Mj= i Yij / n la moyenne de la variable expliquer pour la
modalit j de la variable explicative (ou petite
moyenne )
K : le nombre de modalits testes
Yij : le niveau de Y sous traitement j pour lobservation i
N : le nombre dobservations pour chaque modalit

La dispersion totale des donnes (DISPT) peut tre mesure par la


somme des carrs des carts entre chaque observation et la grande
moyenne :
DISPT== IJ(YIJ-M) (ou= IJYIJ)/N)
La dispersion factorielle (DISPF) est value par la somme des carrs
des carts entre les petites moyennes et la grande moyenne
pondre par le nombre dobservations pour chaque modalit :
DISPF= n.j(mj-M) (ou = i(j.Yij)/ n-(ijYij)/N)
La diffrence entre la dispersion totale er la dispersion factorielle
constitue une dispersion rsiduelle (DISPR).Elle est mesure par la
somme des carrs des carts entre les rsultats associs une
modalit et la petite moyenne mj. Sur lensemble des traitements :
DISPR= j(j(Yij-mj) (ou ijij-j(iYij)/n)
lquation de lANOVA scrit :
DISPT=DISPF-DISPR
IJ(YIJ-M) = n. J(mj-M) + I(i(mj-M))
La dispersion factorielle a t calcule partir des n diffrences
entre les petites moyennes et la grande moyenne
Dans la mesure o M est galement la moyenne des mj, un degr de
libert a t consomm pour effectuer ce calcul. La variance
factorielle slve ainsi : VF = DISPF/(k-1)
La dispersion rsiduelle a t quant elle obtenue par diffrence
entre les n donnes de chaque modalit et la petite moyenne
associe. Cette opration a utilis k degrs de libert. La variation
rsiduelle scrit : VR=DISPR/ (N-k)
Le rapport de ces variances factorielle (intergroupes) et rsiduelle
(intragroupe) suit une loi de Fisher-snedecor (F=VF/VR) (k-1, N-k)
degr de libert
Le F calcul doit tre compar avec le F, lu sur une table de fishersnedecor dans la colonne (k-1) , nombre de degrs de libert du
numrateur, et la ligne (N-k) , nombre de degrs de libert du
dnominateur , pour le seuil de risque accept
On observera enfin que le test F est une gnralisation du test de
comparaison des moyennes : Un test significatif ne permet
cependant pas de dire que toutes les moyennes sont
significativement diffrentes les unes des autres, mais simplement
que sur lensemble de lexprimentation. certaines le sont.

La table de lANOVA :

Les rsultats de lanalyse de la variance sont gnralement


prsents laide dune table, dite table dANOVA, du type de celle
qui est reproduite ci-dessous :

Source de
variation

Degrs de
libert

Factorielle
Rsiduelle

k-1
N-k

Somme
des
carrs
DISPF
DISPR

Carrs
moyens
VF= DISPF/
(k-1)
VR=DISPR/
(N-k)

VF/VR

Total
N-1
DISPT
Aprs le calcul de F, on fixe un seuil . Si F est suprieur la valeur
F (lue dans une table F pour les mmes degrs de libert), on
rejette lhypothse H0, donc il y a une diffrence significative entre
les modalits.

Les mthodes descriptives :


Introduction :

A la diffrence des mthodes explicatives, les mthodes descriptives


prennent en compte un ensemble de variables.
Elles cherchent structurer ou rsumer un groupe de variables
quantitatives (par exemple la rduction des colonnes de la matrice
des donnes pour lanalyse factorielle)
Elles cherchent dcrire de faon synthtique la structure des
donnes disponibles (par exemple le regroupement des observations
en classes homognes pour lanalyse typologique)

Les mthodes descriptives les plus usuelles :

Lanalyse en composantes principales (ACP)


Lanalyse typologique
Lanalyse factorielle des correspondances

Lanalyse en composantes principales :

Cest lune des plus anciennes mthodes danalyse de donnes,


connue par les initiales ACP
Elle consiste rsumer linformation contenue dans la matrice de
donnes en remplaant les variables initiale par un nombre plus
petit de variables composites ou facteurs
Elle permet galement dun point de vue thorique de passer des
mesures des concepts thoriques ne pouvant tre mesurs
directement (les facteurs communs sous-jacents non observables
sont dit variables latentes )

Le positionnement des individus par rapport ces facteurs (ou


composantes principales aidera mettre en vidence des
typologies dindividus (Analyse typologique)

Exemple :
Dans le cadre dune enqute, une agence de conseil en marketing
oprationnel dsire connatre au mieux les attentes et la satisfaction
des consommateurs concernant les prestations quils avaient reues
afin damliorer ses services, et donc son positionnement sur le
march. Chaque rpondant value limportance de plusieurs critres
tels que le dlai, le prix, la qualit, le suivi du projet, le retour sur
investissement, la crativit, la connaissance du secteur Une ACP
permet de savoir quel(s) tai(en)t le((s) plus significatif(s) pour les
consommateurs
Prsentation technique de lACP :

Les facteurs pourraient, a priori, tre choisis arbitrairement comme


une fonction quelconque des variables initiales. En fait deux
conditions restrictives sont introduites dans lanalyse :
- La linarit : les facteurs sont des combinaisons linaires des
variables initiales
- Lindpendance : les facteurs sont indpendants (au sens linaire,
cest--dire que les coefficients de corrlation de deux facteurs
quelconques sont nuls)
Pour lanalyste, la mise en uvre dune ACP va ncessiter de
rsoudre successivement quatre problmes
- La prparation des donnes : quelles donnes appliquer
lanalyse ?
- Le choix dune procdure de calcul : quelle mthode choisir ?
- La dimensionnalit : combien de facteurs faut-il retenir ?
- Comment interprter les rsultats ?

LACP une forme danalyse factorielle : les variables descriptives


initiales X1, X2, ..., Xn sont regroupes en facteurs synthtiques Fj par
combinaison linaire, cest--dire par des relations de la forme :
Fj = C j1X1 + C j2X2 + + CjnXn
Il sagit de dterminer les coefficients Cij de telle sorte reproduire le
maximum de linformation contenue dans les variables initiales avec
le moins de composantes principales possibles

La procdure de rsolution permet didentifier les axes factoriels et


de calculer la variance qui leur est associe. La question qui se pose
lanalyse est celle du nombre daxes retenir pour linterprtation
des rsultats. Plusieurs mthodes sont possibles (dont les plus
importantes sont cites ci-aprs). Il faut noter quil sagit
essentiellement de rgles empiriques fondes sur lexprience

Restitution minimum : dans ce cas, on se fixe lavance un seuil


correspondant au pourcentage minimum de variance que lon veut
restituer et on retiendra le nombre daxes ncessaires pour atteindre
ce seuil. La variance explique (VE) par les deux premiers facteurs F1
et F2 est gale la somme des valeurs propres 1 et 2 associes
ces deux axes, divise par la somme de lensemble des valeurs
propres (cest--dire la variance totale) :
Si cette quantit est suffisamment proche de 1, seuls les deux
premiers facteurs sont conservs, sinon le troisime facteur est
introduit dans lanalyse jusqu ce quon atteigne le seuil fix (par
exemple 80%, soit 0,8)

Rgle de Kaiser : retenir les facteurs correspondant des valeurs


propres suprieures 1 ( >1)
Scree-test de Catell : la variance restitue va en diminuant. LA
rgle darrt consiste chercher quel est le premier des facteurs
dont llimination conduit une perte dinformation minimum. Pour
cela, il suffit de porter sur graphique le numro dees axes factoriels
en abscisse, et le pourcentage de variance quils restituent, puis
0dliminer les facteurs situs aprs le changement de concavit de
la courbe (cest--dire aprs linflexion)
Interprtation des axes factoriels : pour Interprter les facteurs,
il est ncessaire de revenir aux variables initiales. En effet, plus le
coefficient de corrlation entre une variable initiale et un facteur
retenu sera important, plus cette variable sera importante dans
lexplication de ce facteur. Le seuil de corrlations est gnralement
fix 0,5
;

You might also like