Professional Documents
Culture Documents
ROYAUME
DU MAROC
SUPPORT
DE COURS
HAUT COMMISSARIAT AU PLAN
Aspects thorique et pratique
INSTITUT NATIONAL DE STATISTIQUE
ET DECONOMIE APPLIQUEE
2014201
I N S E A , A V E N U E A L L A L A L F A S S I B . P : 6 2 1 5 , R A B A T I N S T I T UPage
T S| 1
Page | 2
4.2.
Coefficient de dtermination..........................................................................................................................21
4.3.
Exemple : Rgression de la taille en fonction du poids ................................................................................21
5. PROPRIETES DES ESTIMATEURS DES MCO ..................................................................................................................22
5.1.
Biais des estimateurs des MCO......................................................................................................................22
Lestimateur b...............................................................................................................................................................22
Lestimateur b...............................................................................................................................................................23
5.2.
Variance des estimateurs des MCO ...............................................................................................................23
5.3.
5.4.
5.5.
Variance de la pente........................................................................................................................................................23
Variance de la constante .................................................................................................................................................23
Covariance des paramtres ............................................................................................................................................23
6.2.
6.3.
6.4.
6.5.
7.
6.6.
Intervalle de confiance de la droite de rgression.........................................................................................33
PREVISION ET INTERVALLE DE PREVISION .............................................................................................................36
7.1.
Prvision ponctuelle.......................................................................................................................................36
7.2.
Prvision par intervalle..................................................................................................................................36
8.
8.2.
8.2.1.
8.2.2.
8.3.
8.3.1.
8.3.2.
Problme de lhtroscdasticit....................................................................................................................45
Analyse par les tests ...................................................................................................................................................45
Analyse par les graphiques........................................................................................................................................47
1.2.
1.3.
Dcomposition de la variance et coefficient de dtermination .....................................................................52
1.4.
Test de significativit globale (Evaluation globale de la rgression) ...........................................................52
1.5.
Tests dhypothses sur les paramtres...........................................................................................................52
2.
REGRESSION LINEAIRE SIMPLE AVEC LA FONCTION DROITEREG DEXCEL ...................................................52
3.
REGRESSION LINEAIRE SIMPLE AVEC LE LOGICIEL R............................................................................................54
3.1.
La corrlation.................................................................................................................................................54
3.1.1.
3.1.2.
3.2.
3.2.1.
3.2.2.
3.2.3.
3.2.4.
4.
5.
6.
7.
8.
INTRODUCTION ..................................................................................................................................................56
NOTATION MATRICIELLE...............................................................................................................................57
HYPOTHESES.......................................................................................................................................................57
3.1.
HYPOTHESES STOCHASTIQUES (de nature probabiliste) .....................................................................57
3.2.
Les hypothses structurelles ..........................................................................................................................58
ESTIMATION DES PARAMETRES...................................................................................................................58
4.1.
Minimisation de la somme des carrs des erreurs ........................................................................................58
4.2.
Ecriture matricielle ........................................................................................................................................58
4.3.
Exemple : consommation des vhicules ........................................................................................................59
4.4.
Quelques remarques sur les matrices............................................................................................................60
INTERPRETATION DES COEFFICIENTS .....................................................................................................................61
5.1.
Coefficient brut ..............................................................................................................................................61
5.2.
Coefficients partiels........................................................................................................................................61
5.3.
Coefficients standardiss ...............................................................................................................................62
PROPRIETES DES ESTIMATEURS ..............................................................................................................................64
6.1.
Biais................................................................................................................................................................64
6.2.
Variance-convergence ...................................................................................................................................65
ESTIMATION DES VARIANCES ..................................................................................................................................66
7.1.
Estimation de la variance de lerreur ............................................................................................................66
7.2.
Estimation de la matrice de variance-covariance des coefficients ...............................................................66
7.3.
Dtails des calculs pour les donnes "Consommation des vhicules".........................................................66
TESTS DE SIGNIFICATIVITE .....................................................................................................................................68
8.1.
Tableau d'analyse de variance et coefficient de dtermination....................................................................68
Page | 4
8.1.1.
8.1.2.
8.1.3.
8.1.4.
8.2.
R corrig ou ajust....................................................................................................................................................68
Coefficient de corrlation linaire multiple .............................................................................................................70
Application aux donnes "Consommation des vhicules"......................................................................................70
Test de signification globale de la rgression ...........................................................................................................71
8.2.1.
8.2.2.
12.1.1.
12.1.2.
12.1.3.
12.1.4.
12.1.5.
12.2.
Traitement ......................................................................................................................................................89
12.3.
en utilisant le logiciel R ............................................................................................................................90
13. COLINEARITE ET SELECTION DES VARIABLES ........................................................................................................91
13.1.
Dfinition, consquences et illustration de la colinarit.............................................................................91
13.2.
Techniques de dtection.................................................................................................................................92
13.2.1.
13.2.2.
13.2.3.
13.2.4.
13.2.5.
13.2.6.
13.2.7.
13.3.
Test de Klein...............................................................................................................................................................92
Facteur d'inflation de la variance (VIF), tolrance et indice de condition ............................................................93
La tolrance ................................................................................................................................................................93
Indice de condition K.................................................................................................................................................93
Application sur la consommation des vhicules ......................................................................................................94
Test de Farrar & Glauber (multicolinarit)...........................................................................................................95
Cohrence des signes..................................................................................................................................................95
13.3.1.
13.3.2.
13.3.3.
13.3.4.
Page | 5
Page | 6
Gnralits
Les sciences exactes sont fondes sur la notion de relations rptables, qui peut snoncer ainsi : dans
les mmes conditions, les mmes causes produisent les mmes effets. Notant alors x la mesure des
causes, et y celle des effets, la liaison entre y et x scrit suivant la relation fonctionnelle y = f(x) :
une valeur donne de x correspond une valeur bien dtermine de y.
Or, pour de nombreux phnomnes, une tude exhaustive de tous les facteurs est impossible, cause
de leur grand nombre ou de leur complexit. Il en rsulte que la reproductibilit des conditions, dune
exprience une autre, ne peut tre garantie. Partant de cette constatation, la statistique va permettre
dtendre la notion de relation fonctionnelle rptable, celle de corrlation o la relation entre x et y
est entache dune certaine dispersion due la variabilit des conditions dexprience : on crira
y = f (x) + , o est une variable alatoire.
Le problme est dtudier linfluence de la variable quantitative X sur la variable quantitative Y. La
premire est souvent appele variable explicative (ou encore exogne) et la seconde est appele
variable explique (ou encore endogne). Pour rsoudre ce problme, une exprimentation doit tre
ralise qui consiste prlever un chantillon de n individus, et mesurer sur chacun deux les valeurs
prises par chacune des deux variables. En vue, par exemple, dtudier l'influence du poids dun
individu sur sa taille. Il faut donc observer un chantillon de n couples d'observations (xi, yi) que lon
peut reprsenter sur un graphique, dans le plan R, o chaque point i, dabscisse xi et dordonne yi ,
correspond un couple dobservations. Plusieurs cas peuvent se prsenter.
Les points salignent sur une courbe qui, dans lhypothse la plus simple est une droite. On dit que la
relation entre Y et X est fonctionnelle : lorsque la valeur de X est donne, celle de Y est dtermine sans
ambigut. Cest le cas idal qui, exprimentalement, nest jamais ralis de faon parfaite.
Les mesures sont en effet toujours entaches de quelque imprcision. Les points forment alors un
nuage. Mais celui-ci prsente une orientation qui suggre, par exemple, que lorsque X augmente, la
valeur moyenne de Y augmente galement.
Page | 7
Lorsque X est donn, Y nest pas compltement dtermin : ses valeurs se dispersent autour d'une
certaine valeur moyenne. Mais les valeurs moyennes dcrivent, lorsque X varie, une courbe qui est
appele la ligne de rgression de Y par rapport X : E(Y/X = x) = f(x)
La liaison entre Y et X est alors appele stochastique (ou statistique). Un cas particulirement important
est celui o le nuage se dispose suivant une forme allonge et exhibe une tendance sensiblement
linaire. Cest ce cas de rgression linaire que nous allons nous attacher dans ce support de cours.
Cette condition de linarit nest pas aussi restrictive quil pourrait paratre : une transformation
mathmatique approprie permettra toujours de passer dune ligne de rgression dquation
quelconque une droite de rgression. Si la tendance est, par exemple, de la forme y = b x , il suffira
deffectuer les changements de variable y' = log(y) pour retrouver une relation linaire :
a log(x) + log(b).
Le prsent support de cours est rparti en deux chapitres. Dans le premier chapitre, sera analys le
modle de la rgression linaire simple. Plusieurs notions seront dtailles, savoir : prsentation du
modle, hypothses du modle, estimation des paramtres du modle, proprits des estimateurs, etc.
Le deuxime chapitre, quant lui, sintresse au modle de la rgression linaire multiple. Chaque
chapitre sera scind en deux sections : la premire section abordera les aspects thoriques, par contre la
deuxime section traitera les aspects pratiques en retenant un logiciel statistique (SPSS) et un tableur
(EXCEL).
Page | 8
dans le clbre article : Regression towards mediocrity in hereditary stature Journal of the
Anthropological Institute 15 : 246-263 (1886) 1 pour dcrire un phnomne biologique. Le
phnomne est que la taille des enfants ns des parents inhabituellement grands (ou petits) se
rapproche de la taille moyenne de la population. Galton a appel ce processus la rgression
vers la moyenne.
Francis Galton 1822-1911
Ltude de la rgression est importante dans la mesure o elle est considre comme la base de laction
de lingnieur. Elle peut servir contrler, prvoir et dcider. La rgression est la mthode la plus
utilise pour deux raisons majeures :
- cest une mthode ancienne ;
- cest l'outil de base de la plupart des modlisations plus sophistiques comme la rgression
logistique, le modle linaire gnralis, les mthodes de traitement des sries temporelles,
et surtout des modles conomtriques, etc.
1.1. La corrlation
La notion de corrlation a t invente par PEARSON2. La corrlation est un indice de la force d'une
relation linaire ou linarise (aprs transformation) entre deux ou plusieurs variables.
Lorsque deux variables ont une volution commune, nous disons quils sont corrls . La
corrlation simple mesure le degr de liaison existant entre ces deux phnomnes reprsents par des
variables.
Nous pouvons distinguer la corrlation linaire, lorsque tous les points du couple de valeurs (xi,yi) des
deux variables semblent aligns sur une droite, de la corrlation non linaire lorsque le couple de
valeurs se trouve sur une mme courbe dallure quelconque.
Deux variables peuvent tre :
en corrlation positive ; on constate alors une augmentation (ou diminution, ou constance)
simultane des valeurs des deux variables ;
en corrlation ngative, lorsque les valeurs de lune augmentent, les valeurs de lautre diminuent ;
galton.org/essays/1880-1889/galton-1886-jaigi-regre ssion-stature.pdf.
Karl Pearson (27 mars 185727 avril 1936), mathmaticien britannique, est un des fondateurs de la statistique moderne.
Il est aujourd'hui principalement connu pour avoir dvelopp le coefficient de corrlation et le Test du .
2
Page | 9
non corrles, il ny a aucune relation entre les variations des valeurs de lune des variables et les
valeurs de lautre.
Le tableau 1, en croisant les critres de linarit et de corrlation, renvoie une reprsentation
graphique.
On dispose donc dun chantillon de n couples d'observations (xi, yi) que lon peut reprsenter sur un
graphique, dans un plan de deux dimensions, o chaque point i, dabscisse xi et dordonne yi,
correspond un couple dobservations. Ce graphique sappelle nuage des points associant x et y.
Plusieurs cas peuvent se prsenter.
Les points salignent sur une courbe qui, dans lhypothse la plus simple est une droite. On dit que la
relation entre Y et X est fonctionnelle : lorsque la valeur de X est donne, celle de Y est dtermine
sans ambigut. Cest le cas idal qui, exprimentalement, nest jamais ralis de faon parfaite.
Tableau 1. Linarit et corrlation
Corrlation Corrlation
Absence
positive
ngative
de corrlation
Graphe 1
Graphe 2
Graphe 5
Relation linaire
Graphe 3
Graphe 4
Graphe 5
Relation non linaire
Les mesures sont en effet toujours entaches de quelque imprcision. Les points forment alors un
nuage. La liaison entre Y et X est alors appele stochastique (ou statistique). Un cas particulirement
important est celui o le nuage se dispose suivant une forme allonge et exhibe une tendance
sensiblement linaire. Cest ce cas de rgression linaire que nous allons nous attacher dans ce
chapitre.
Cette condition de linarit nest pas aussi restrictive quil pourrait paratre : une transformation
mathmatique approprie permettra toujours de passer dune ligne de rgression dquation
quelconque une droite de rgression.
X X(Y y)
X X Y Y
Cov(X, Y)
s s
Page | 10
avec :
Cov(X,Y) = covariance entre X et Y ; X et Y = cart type de x et cart type de Y ; n = nombre
dobservations.
On peut dmontrer que, par construction ce coefficient reste compris entre 1 et 1 :
proche de 1, les variables sont corrles positivement ;
proche de 1, les variables sont corrles ngativement ;
proche de 0, les variables ne sont pas corrles.
Les deux sries de valeurs X(x, , x) et Y(y, , y)peuvent tre considres comme des vecteurs
dans un espace n dimensions. Remplaons-les par des vecteurs centrs : X(x x, , x x)et
Y(y y, , y y).
Le cosinus de l'angle entre ces vecteurs est donn par la formule suivante (produit scalaire norm) :
(x x)(y y)
cos() =
(x x) (y y)
Donc () = , ce qui explique que est toujours compris entre -1 et 1.
Le coefficient de corrlation nest autre que le cosinus de l'angle entre les deux vecteurs centrs.
Si r = 1, langle = 0, les deux vecteurs sont colinaires (parallles).
Si r = 0, langle = 90, les deux vecteurs sont orthogonaux.
Si r = -1, langle vaut 180, les deux vecteurs sont colinaires de sens oppos.
Plus gnralement : a = )(, o arccos est la rciproque de la fonction cosinus.
Bien sr, du point de vue gomtrique, on ne parle pas de corrlation linaire : le coefficient de
corrlation a toujours un sens, quelle que soit sa valeur entre -1 et 1. Il nous renseigne de faon prcise,
non pas tant sur le degr de dpendance entre les variables, que sur leur distance angulaire dans
lhypersphre n dimensions.
Dans la pratique, ce coefficient est rarement trs proche de lune de ces trois bornes et il est donc
difficile de proposer une interprtation fiable la simple lecture de ce coefficient. Ceci est surtout vrai
Page | 11
en conomie o les variables sont toutes plus au moins lies entre elles. De plus, il nest calcul qu
partir dun chantillon dobservations et non pas sur lensemble des valeurs. On appelle x,y ce
coefficient empirique qui est une estimation du coefficient vrai rX,Y. La thorie des tests statistiques
nous permet de lever cette indtermination.
Soit tester lhypothse H0 : rX,Y = 0 , contre lhypothse H1 : rX,Y 0 .
Sous lhypothse H0, nous pouvons dmontrer que
r,
( r
, )
r,
(r
,)
Nous calculons la valeur absolue du t empirique et nous procdons au test par comparaison avec la
valeur lue directement dans la table.
a/
Si t > t valeur lue dans une table de Student au seuil = 0,05 (5 %) n 2 degrs de libert4,
nous rejetons lhypothse H0, le coefficient de corrlation est donc significativement diffrent de 0;
dans le cas contraire, lhypothse dun coefficient de corrlation nul est accepte. La loi de Student
tant symtrique,
1.2. La rgression linaire simple
La rgression linaire simple a pour objectif dtudier la dpendance, sous forme linaire, entre deux
grandeurs. Lexemple classique de la taille (Y) dun individu en fonction de son poids (X) est illustr
ci-dessous par un chantillon de 20 personnes.
Figure 3. Taille X Poids
3
4
La variable Taille (Y) est appele la variable "rponse", ou selon les domaines disciplinaires, variable
expliquer, ou encore variable dpendante. La variable Poids (X) est la variable "rgresseur", encore
appele variable explicative, ou variable indpendante. b est lordonne lorigine.
Ceci dit, un modle de rgression linaire simple est dfini par une quation de la forme :
" i {1, , n} y = b + b x+
Les quantits viennent du fait que les points ne sont jamais parfaitement aligns sur une droite. On
les appelle les erreurs (ou bruits) et elles sont supposes alatoires.
2. Estimation des paramtres du modle de la rgression linaire simple
2.1. Comment trouver la droite qui passe "au plus prs" de tous les points ?
Pour trouver la droite qui passe "au plus prs" de tous les points il faut se donner un critre dajustement.
Cette faon de faire consiste projeter les points M1 M4 paralllement laxe des Y. Sur la droite on
obtient les points P1 P4, comme le montre la figure n2 suivante.
Figure n2. Projection des points M1, , M4 sur la droite
Y = 1 + X +
2
Le critre retenu pour dterminer la droite D passant au plus prs de tous les points sera tel que :
La somme des carrs des carts (SCE) des points observs Mi la droite solution soit minimum.
La droite solution sera appele droite de rgression de Y sur X. Le critre est le critre des Moindres
Carrs Ordinaires (MCO, Ordinary Least Squares en anglais), appel aussi par les statisticiens
critre de norme L . Les carts sont calculs en projetant les points M5 paralllement laxe des Y.
2.2. La mthode des Moindres Carrs Ordinaires (MCO)
Les points (xi, yi) tant donns, le but est maintenant de trouver une fonction affine f telle que la
quantit Ly f(x)soit minimale. Pour pouvoir dterminer f, encore faut-il prciser la
fonction de cot L. Deux fonctions sont classiquement utilises :
- le cot absolu L(u) = |u| ;
- le cot quadratique L(u) = u2.
Les deux ont leurs vertus, mais on privilgiera dans la suite la fonction de cot quadratique. On parle
alors de mthode destimation par moindres carrs6.
On pourrait aussi projeter les points M paralllement laxe des X, on aurait alors une autre droite solution (rgression de
X sur Y). Dans ces deux rgressions Y et X ne jouent pas le mme rle.
6
Terminologie due Legendre dans un article de 1805 sur la dtermination des orbites.
Page | 13
On appelle estimateurs des Moindres Carrs Ordinaires 1 et 2 les valeurs minimisant la quantit :
S(, ) = (y x)
Autrement dit, la droite des moindres carrs minimise la somme des carrs des distances verticales des
points (xi, yi) du nuage la droite ajuste y = 1 + 2 x.
2.4. Calcul des estimateurs
La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun
problme. En effet, cette fonction S(1, 2) est strictement convexe, donc elle admet un minimum en
un unique point (1 et 2), lequel est dtermin en annulant les drives partielles de S. On obtient les
"quations normales" :
do
Cette quation montre que la droite passe par le point (x, y).
La seconde quation donne :
Cov(X, Y)
Var(X)
(2)
Pour vrifier quil sagit bien dun minimum, on doit montrer que la matrice hessienne des drives
secondes est dfinie positive. Cette matrice vaut :
On a,
(,)
= 2n,
(,)
S(, ) S(, )
=
S(, ) S(, )
= 2 x , et
(,)
= 2 x.
x
n
= 2
x x
Page | 14
Pour tout vecteur u R2, les formes quadratiques uHu peuvent scrire 2vv en posant v = Xu.
Comme vv est toujours positif, la matrice H est dfinie positive.
2.5. Quelques remarques
- Autre criture de lestimateur de la pente. Il y a une relation directe entre l'estimateur de la pente
= Cov(X,Y) = rxy sX sY = rxy sY = r Y
et le coefficient de corrlation linaire de Pearson ryx. b
2
xy
Var(X)
s
2
X
Nous le verrons dans la partie infrentielle, tester la significativit de la pente revient tester la
significativit de la corrlation entre Y et X.
- Erreur et rsidu. est l'erreur inconnue introduite dans la spcification du modle. Nous avons
alors estim les paramtres 1 et 2 partir de l'chantillon et nous appuyant sur le principe des
moindres carrs. Nous pouvons obtenir la valeur prdite de l'endogne Y pour l'individu i avec :
y = y(x) = + x
La distinction "erreur/rsidu" est importante car, comme nous le verrons par la suite, les expressions de
leurs variances ne sont pas les mmes.
Toujours concernant le rsidu, notons une information importante : e = 0
La somme (et donc la moyenne) des rsidus est nulle dans une rgression avec constante. En effet :
e = y + x= ny n nx = ny nx ny x= 0
- Centre de gravit du nuage de points. La droite de rgression avec constante passe forcment par
le centre de gravit du nuage de points. En effet : y(x) = + x
= x
+ (y x
) = y .
2.6. Exemple
Taille (Y)
Poids (X)
Taille (Y)
Poids (X)
Taille (Y)
Poids (X)
Taille (Y)
46
78
85
85
85
152
158
160
162
158
85
95
95
100
100
159
165
165
166
159
100
103
105
105
115
166
168
163
164
168
115
115
130
135
150
166
162
165
167
172
Lestimation des paramtres du modle peut se faire laide dun tableur comme EXCEL. Comme elle
peut tre obtenu en utilisant des logiciels statistiques, comme SPSS, SAS, etc7.
46
152
-55,35 -11,25
622,69
3 063,62
78
158
-23,35 -5,25
122,59
545,22
85
160
-16,35 -3,25
53,14
267,32
85
162
-16,35 -1,25
20,44
267,32
85
158
-16,35 -5,25
85,84
267,32
85
159
-16,35 -4,25
69,49
267,32
95
165
-6,35
1,75
11,11
40,32
95
165
-6,35
1,75
11,11
40,32
100
166
-1,35
2,75
3,71
1,82
100
159
-1,35
-4,25
100
166
-1,35
2,75
103
168
1,65
4,75
105
163
3,65
-0,25
105
164
3,65
0,75
2,74
13,32
115
168
13,65
4,75
64,84
186,32
115
166
13,65
2,75
37,54
186,32
115
162
13,65
-1,25
130
165
28,65
1,75
50,14
820,82
135
167
33,65
3,75
126,19
1 132,32
172
48,65
8,75
425,69
2 366,82
1 647,25
9 672,55
150
=
Yi -
(Xi -
) x (Yi -
) (Xi -
)
Xi -
Poids (X)
Pente = b =
=
= 101,35
,
,
= 163,25
5,74
-
3,71
7,84
0,91
17,06
1,82
1,82
2,72
13,32
186,32
= ,
b
= ,
Constante = b =
3. Hypothses de la RLS
Jusqu'ici, on ne s'est appuy que sur des calculs algbriques, sans faire appel des notions de
statistique. On ne cherchait que la droite d'ajustement sur l'chantillon. En dautres termes, aucune
supposition n'a t ncessaire dans toutes les dmonstrations.
Si maintenant, on souhaite utiliser les rsultats obtenus partir des observations, vues comme un
chantillon, pour infrer sur la population, il faut faire appel des notions de probabilit, et de statistique
puisque dans les relevs de donnes (exemple : Poids et Taille) notre disposition on n'a qu'un chantillon
de valeurs et non toute la population.
Sur la figure suivante, on remarque que pour une mme valeur du Poids, par exemple 85, il y a plusieurs
valeurs possibles de la Taille (158, 159, 160 et 162). Il n'y a pas de valeur unique associe une valeur Xi
mais une distribution de valeurs.
Page | 16
Pour chaque valeur du poids (X) existe une distribution thorique des tailles (Y). Les valeurs de
centrage sont les esprances des tailles de la population correspondant chaque poids Xi. Lesprance
(moyenne thorique i) de chaque distribution de Y, est appele statistiquement parlant l'esprance
de Yi sachant Xi que l'on note E(Yi/Xi). L'hypothse de la rgression linaire est que les i sont
aligns sur la vraie droite de rgression qui est inconnue. Pour simplifier l'criture on note E(Yi) au lieu
de E(Yi/Xi), soit : = ( = )b + b
Pour un mme poids X1 fix on a une distribution de taille Y1, dont on a observ une ralisation y1, ou
plusieurs. Par exemple sur le graphique Taille*Poids de la figure 3, on remarque que pour X=46 on a
une seule valeur observe Y=152, tandis que pour X=85 on observe plusieurs valeurs de Y (158, 159,
160 et 162).
Chaque Yi est une variable alatoire qui a une distribution de probabilit de Yi sachant Xi note
p(Yi/Xi). Des hypothses sur la rgularit de ces distributions devront tre faites :
- les distributions, pour tous les points Xi, sont supposes normales ;
- les esprances des distributions sont centres sur la droite de rgression ;
- les variances de chaque Yi conditionnellement Xi sont toutes gales.
3.1. Vraie droite de rgression et droite estime par la rgression
La figure 4 ci-dessus, montrant les distributions de Y pour X fix, est une illustration du modle de
rgression linaire. Toujours en supposant que le modle linaire postul est le vritable modle, on
Page | 17
toute la population. Comme on n'a qu'un chantillon d'observations, on n'a qu'une estimation
L'erreur thorique i reprsente l'cart entre Yi observ et l'esprance E(Yi) non observable. On notera
que i nest pas observable, et ce qui est observable cest lerreur ei correspondant lcart entre Yi
, son estimation par le modle.
observ et Y
Le rsidu observ ei est une estimation de lerreur inobservable i.
3.3. Glissement de la mthode des MCO la rgression
Historiquement la mthode des moindres carrs d'abord t dveloppe par LEGENDRE en 1805,
pour rpondre la question suivante pose par les astronomes : "Comment combiner des observations
effectues dans des conditions diffrentes, afin d'obtenir les meilleures estimations possibles de
plusieurs grandeurs astronomiques ou terrestres lies entre elles par une relation linaire?". Ces
grandeurs sont mesures par des instruments imparfaits, et par des observateurs qui ne sont pas tous
identiques. Il y a des erreurs de mesures dans les observations. De l provient le vocabulaire :
observation, cart, erreur ou rsidu.
Galton inventeur de la "rgression" et PEARSON inventeur de la "corrlation" appliqurent
l'ajustement des moindres carrs des donnes sociales dans les annes 1980.
En 1885 GALTON ralisa le tableau qui croise la taille de 928 enfants (devenus adultes) ns de 203
parents, en fonction de la taille moyenne de leurs parents. En prsentant ce tableau sous forme dun
graphique, GALTON remarqua que lon pouvait voir des ellipses de densits. Si les parents sont plus
grands que la moyenne, les enfants seront galement plus grands que la moyenne mais avec une taille
plus proche de la moyenne que celle de leurs parents. Si les parents sont de petites tailles, leurs enfants
seront galement plus petits que la moyenne, mais avec une taille plus proche de la moyenne que celle
de leurs parents. Il y a rgression vers la moyenne. Do le terme de rgression . Ce n'est que vers
les annes 1930 que le formalisme de la mthode des moindres carrs associ une interprtation
probabiliste est devenu la Rgression .
Le glissement des mthodes d'analyse, des erreurs en Astronomie vers des estimations de moyennes en
Sciences Sociales, a conduit appeler erreur ou perturbation ou encore ala, l'cart de Y par rapport
sa moyenne.
Le modle s'crit : y = b + b x+ o les erreurs sont des alas indpendants desprance =
0 et de variance s.
Le terme tient un rle trs important dans cette rgression. Il permet de rsumer toute l'information
qui n'est pas prise en compte dans la relation linaire que l'on cherche tablir entre Y et X, cest
dire les problmes de spcifications, l'approximation par la linarit. Comme nous le verrons plus bas,
les proprits des estimateurs reposent en grande partie sur les hypothses que nous formulerons
propos de 8.
En pratique, aprs avoir estim les paramtres de la rgression, les premires vrifications portent sur l'erreur calcule sur
les donnes (on parle de "rsidus") lors de la modlisation.
Page | 18
Comme dj soulign, les quantits viennent du fait que les points ne sont jamais parfaitement
aligns sur une droite. On les appelle les erreurs (ou bruits) et elles sont supposes alatoires. Pour
pouvoir dire des choses pertinentes sur ce modle, il faut nanmoins imposer des hypothses les
concernant.
Ces hypothses psent sur les proprits des estimateurs (biais, convergence) et linfrence statistique
(distributions des coefficients estims).
H1 : Hypothses sur Y et X. X et Y sont des grandeurs numriques mesures sans erreur. X est une
donne exogne dans le modle, connue sans erreur. Elle est suppose non alatoire. Y est alatoire
par l'intermdiaire de c.--d. la seule erreur que l'on a sur Y provient des insuffisances de X
expliquer ses valeurs dans le modle. Autrement dit, Y est attach dune erreur additive
(Ymesur = Yvrai + ) et il existe en moyenne une relation linaire entre X et Y ; E(Y/X=x) = f(x) =
b + b
H2 - Hypothses sur le terme alatoire . Les i sont i.i.d (indpendants et identiquement distribus).
H2.a - E(i) = 0, en moyenne les erreurs s'annulent c'est--dire le modle est bien spcifi.
H2.b - V(i) = e , la variance de l'erreur est constante et ne dpend pas de l'observation. C'est
l'hypothse d'homoscdasticit.
H2.c - En particulier, l'erreur est indpendante de la variable exogne c.--d. COV (xi, i) = 0
H2.d - Indpendance des erreurs. Les erreurs relatives 2 observations sont indpendantes c.--d.
COV(i,j) = 0. On parle de "non auto-corrlation des erreurs".
H2.e - i N(0, e ). L'hypothse de normalit des erreurs est un lment cl pour l'infrence
statistique.
A partir de lquation de la droite de rgression (modle retenu), on peut pour tout point i d'abscisse
calculer son estimation (ordonne) y
+b
xi = y b
x + b
xi avec b = y b x;
y = b
1
2
2
2
(I)
Cov(X,Y)
Var(X)
(
)(
)
(
)
(y y) = (y y) + (y y) 2b (x x) ; Ou encore
(y y) = (y y) + (y y) 2 [b (x x)] ; Ou bien
(y y) = (y y) + (y y) 2 [y y]
Page | 19
(II)
ANOVAb
Somme des carrs ddl Moyenne des carrs
1 Rgression
SCE
Rsidu
SCR
n-2
Total
SCT
n-1
MCE=SCE/1
Sig.
MCE/MCR
MCR=SCR/n-2
Abrviations :
- ddl : degrs de libert. Ils vrifient : ddltotal = ddlmodle + ddlerreur ;
- Moyenne des carrs : rapport somme des carrs (SC/ddl), relatif soit au modle soit lerreur ;
- D : rapport des MCE et MCR ;
- Sig. : Signification du test.
Degrs de libert
Les degrs de libert peuvent tre vu de diffrentes manires. La dfinition la plus accessible est de les
comprendre comme le nombre de termes impliqus dans les sommes (le nombre d'observations) moins
le nombre de paramtres estims dans cette somme.
Ainsi :
- Nous avons besoin de l'estimation de la moyenne y pour calculer la somme SCT (n-1).
- Nous avons besoin des coefficients estims bet b pour obtenir la projection y et former la SCR
(n-2).
- Concernant la SCE, le plus simple est de l'obtenir par dduction, cest dire (n 1) (n 2) = 1.
Page | 20
Il est possible de dduire un indicateur synthtique partir de l'quation d'analyse de variance. C'est le
coefficient de dtermination R2. R =
= 1
b. avec un tableur
Le tableau suivant prsente le dtail des calculs relatif la dcomposition de la variance laide du tableur
EXCEL.
27,56
15,81
1,62
160,47
10,56
7,75
0,22
267,32
160,47
1,56
7,75
2,35
85,84
267,32
160,47
27,56
7,75
6,08
69,49
267,32
160,47
18,06
7,75
2,15
11,11
40,32
162,17
3,06
1,17
8,02
11,11
40,32
162,17
3,06
1,17
8,02
3,71
1,82
163,02
7,56
0,05
8,88
1,82
163,02
18,06
0,05
16,16
1,82
163,02
7,56
0,05
8,88
2,72
163,53
22,56
0,08
19,97
13,32
163,87
0,06
0,39
0,76
2,74
13,32
163,87
0,56
0,39
0,02
4,75
64,84
186,32
165,57
22,56
5,40
5,88
13,65
2,75
37,54
186,32
165,57
7,56
5,40
0,18
162
13,65
-1,25
186,32
165,57
1,56
5,40
12,78
130
165
28,65
1,75
50,14
820,82
168,13
3,06
23,81
9,79
135
167
33,65
3,75
126,19
1 132,32 168,98
14,06
32,84
3,92
150
172
48,65
8,75
425,69
2 366,82 171,54
76,56
68,64
0,22
1 647,25
9 672,55
399,75
280,53
119,22
SCT
SCE
SCR
)
(Xi -
122,59
545,22
159,27
-16,35 -3,25
53,14
267,32
162
-16,35 -1,25
20,44
85
158
-16,35 -5,25
85
159
-16,35 -4,25
95
165
-6,35
1,75
95
165
-6,35
1,75
100
166
-1,35
2,75
100
159
-1,35
-4,25
100
166
-1,35
2,75
103
168
1,65
4,75
105
163
3,65
-0,25
105
164
3,65
0,75
115
168
13,65
115
166
115
Xi -
(Xi -
) x (Yi -
)
Yi -
Poids (X)
Taille (Y)
46
152
-55,35 -11,25
622,69
78
158
-23,35 -5,25
85
160
85
= 101,35
Pente = b =
= = = 163,25
= ,
b
= ,
Constante = b =
5,74
-
3,71
7,84
0,91
17,06
88,85
3,33
R = 280,53/399,75=0,702
Page | 21
Lestimateur b
Concernant b , il y a deux tapes principalement dans la dmonstration : dans un premier temps, il faut
exprimer b en fonction de b; dans un deuxime temps, en passant l'esprance mathmatique, il faut
souhaiter que tout ce qui ne dpend pas de b devienne nul, en s'appuyant sur les hypothses dj tablies
au paragraphe 3.4.
Soit y = b + b x+ (5.1)
y = b + b x+ e (5.2)
y = b + b x+
(1) (2)
y = b + b x+ e
y y = b(x x) + ( e)
(. )
(
)(
)
Or b =
(5.4) ; (5.33) dans (5.4)
(
)
(
)[b2 (xi x)+(i e )]
) (xi x)(i e )
b (
b =
= 2
(
)
(
)
(x x)(i e )
b = b2 + i
(
)
=b +
ei (x x) = 0 ; do b
2
(xi x)i
(
)
(5.5)
Enfin, il faut dmontrer que la partie aprs l'addition de (6) est nulle en passant l'esprance mathmatique.
Nous devrons introduire les hypothses adquates pour ce faire.
E(b) = E b2 +
(xi x)i
= b2 +
((
)
(xi x)
(
)
Conclusion : L'estimateur des moindres carrs ordinaires (EMCO) est sans biais, si et seulement si les
deux hypothses suivantes sont respectes :
1. (H1) L'exogne X n'est pas stochastique (X est non alatoire) ;
2. (H2.a) E(i) = 0, l'esprance de l'erreur est nulle.
Page | 22
Lestimateur b
En procdant de la mme manire, nous avons :
b = y bx; y = b + bx; (5.6) ; (5.6) = (5.2) b + b x+ e = b + bx
b = b + (b b)x+ e (5.7)
(b) = e ( +
) ; (b) =
(
)
(
)
e
,b
(
)
Variance de la pente
On part nouveau de lexpression de b, relation (5.5) dj tablie:
(xi x)i
b = b2 +
(x x)
Or les erreurs i sont non corrles et de mme variance e , donc la variance de la somme est la somme des
variances :
(
)
b=
[ (
)]
(
)
(5.8)
Variance de la constante
On part nouveau de lexpression de b, quation (7) dj tablie :
(
)(ee)
(
)e
Covb, e= E e =
=0 ;
Do : (b) =
)
((
( (
)
+ e = e ( +
(
)
(
)
(5.9)
soit b, b=
e
(
)
(
)
(5.10)
(
)
(
)
Page | 23
Thorme 3.
Les estimateurs des MCO sont convergents10.
b=
(
)
- e est une valeur qui ne dpend pas de n, c'est la variance de l'erreur dfinie dans la population.
- lorsque n , on constate que (x x) . En effet, c'est une somme de valeurs toutes positives
ou nulles.
Nous pouvons donc affirmer que b est un estimateur convergent de b, parce que : Vb 0
e +
(
)
et
Vb 0
n
Pour dmontrer la convergence des estimateurs de la rgression linaire simple, deux hypothses ont t
introduites, savoir :
- (H2.b) : E(e) = V(ei ) = se . C'est l'hypothse d'homoscdasticit.
En sintressant aux formules de la variance produites dans ci-dessus, nous remarquons que les estimateurs
seront d'autant plus prcis, les variances seront d'autant plus petites, que :
- La variance de l'erreur est faible, c'est--dire la rgression est de bonne qualit ;
- La dispersion des X est forte c'est--dire les points recouvrent bien l'espace de reprsentation ;
- Le nombre d'observations n est lev.
Nous pouvons illustrer ces remarques laide des graphiques de la figure suivante :
Figure 5. Quelques situations caractrisant linfluence de la variance de la pente
valeur leve de ( x x
)
( x x) est faible
10
Vq 0
n
Page | 24
Parmi les estimateurs sans biais linaires en y de la rgression, les estimateurs MCO sont variance
minimale, cest dire il n'existe pas d'autres estimateurs linaires sans biais prsentant une plus petite
variance. Les estimateurs des MCO sont BLUE (best linear unbiased estimator). On dit qu'ils sont
efficaces.
Dmonstration du thorme
Pour la pente, on part nouveau de lexpression de b, quation (4) dj tablie, lestimateur des MCO
(
(
)(
)
)
scrit b =
= = py avec p =
(
)
(
)
)
(
(
)
b = ly = l(b + bx+ e)
Montrons que l = 0 et lx = 1
Lgalit E(b) = b l + b lx+ lE(e) est vrai pour tout b. Lestimateur b est sans
biais donc E(b) = b pour tout b, c'est--dire que l = 0 et lx = 1.
Montrons que V(b) V(b):
)
l (
Or Cov(b b, b) = Cov(b b) Vb= e
lx
(
)
e x l
(
)
( x x)
( x x)
e 1 e x 0
e
=
=0
( x x)
( x x)
6. Infrence statistique
Page | 25
Modle
ANOVAb
Somme des carrs ddl Moyenne des carrs
1 Rgression
SCE
MCE=SCE/1
Rsidu
SCR
n-2
Total
SCT
n-1
Sig.
MCE/MCR
MCR=SCR/n-2
Pour tester la significativit globale de la rgression, nous nous basons sur la statistique F :
= =
(6.1)
c. Distribution Sous H0
( )
( )
Sous H0, SCE est distribu selon (1) et SCR selon (n-2). Donc F
c()
c()
()
(6.2)
(1, n 2)
Sous H0, F est donc distribu selon une loi de Ficher) (1,n-2) degrs de libert.
La rgion critique (R.C.) du test, correspondant au rejet de H0, au risque est dfinie pour les valeurs
anormalement leves de F c'est--dire :
d. Distribution Sous H0
. . : F > (1, n 2)
Dans la plupart des logiciels de statistique11, on fournit directement la probabilit critique (p-value) ,
qui correspond la probabilit que la loi de Fisher dpasse la statistique calcule F.
Ainsi, la rgle de dcision au risque devient :
. . : a < a
e. En utilisant un tableur
Le tableau suivant prsente le dtail des calculs relatif lestimation des paramtres du modle de la
rgression simple laide du tableur EXCEL.
Le tableau suivant prsente le dtail des calculs relatif la dcomposition de la variance laide du tableur
EXCEL.
11
Comme SPSS.
Page | 26
152
Yi -
(Xi -
) x (Yi -
) (Xi -
)
Xi -
-55,35 -11,25
622,69
3 063,62
153,82
)
126,56
(
)
)
3,33
78
158
-23,35
-5,25
122,59
545,22
159,27
27,56
15,81
1,62
85
160
-16,35
-3,25
53,14
267,32
160,47
10,56
7,75
0,22
85
162
-16,35
-1,25
20,44
267,32
160,47
1,56
7,75
2,35
85
158
-16,35
-5,25
85,84
267,32
160,47
27,56
7,75
6,08
85
159
-16,35
-4,25
69,49
267,32
160,47
18,06
7,75
2,15
95
165
-6,35
1,75
11,11
40,32
162,17
3,06
1,17
8,02
95
165
-6,35
1,75
11,11
40,32
162,17
3,06
1,17
8,02
100
166
-1,35
2,75
3,71
1,82
163,02
7,56
0,05
8,88
100
159
-1,35
-4,25
1,82
163,02
18,06
0,05
16,16
100
166
-1,35
2,75
1,82
163,02
7,56
0,05
8,88
103
168
1,65
4,75
2,72
163,53
22,56
0,08
19,97
105
163
3,65
-0,25
13,32
163,87
0,06
0,39
0,76
105
164
3,65
0,75
2,74
13,32
163,87
0,56
0,39
0,02
115
168
13,65
4,75
64,84
186,32
165,57
22,56
5,40
5,88
115
166
13,65
2,75
37,54
186,32
165,57
7,56
5,40
0,18
115
162
13,65
-1,25
186,32
165,57
1,56
5,40
12,78
130
165
28,65
1,75
50,14
820,82
168,13
3,06
23,81
9,79
135
167
33,65
3,75
126,19
1 132,32
168,98
14,06
32,84
3,92
172
48,65
8,75
425,69
2 366,82
171,54
76,56
68,64
0,22
1 647,25
9 672,55
399,75
280,53
119,22
SCT
SCE
SCR
Poids (X)
Taille (Y)
46
150
=
= 101,35
Pente = b =
= = = 163,25
5,74
-
3,71
7,84
0,91
17,06
= ,
b
= ,
Constante = b =
88,85
S.C
ddl
C.M
Explique
280,53
280,53
Rsiduelle
119,22
18
Totale
399,75
Fcalcul
19
0,95
42,354
(1,18)
6,623
4,41
Page | 27
Dans R (espace des variables xi et yi), b est lordonne lorigine et b la pente de la droite ajuste
(figure suivante). Cette droite minimise la somme des carrs des distances verticales des points du
nuage la droite ajuste. Notons y = + x lordonne du point de la droite des moindres carrs
dabscisse xi, ou valeur ajuste. les rsidus sont dfinis par (figure ?) :
(6.3)
Par construction, la somme des rsidus est nulle :
Il est noter que les variances et covariance des estimateurs b et b tablies prcdemment ne sont
pas pratiques car elles font intervenir la variance inconnue e des erreurs. Nanmoins, on peut en
donner un estimateur sans biais grce aux rsidus.
La statistique
e =
Preuve.
(6.4)
(6.5)
Nous avons :
En dveloppant lesprance mathmatique de (I), on a :
CQFD.
se
Page | 28
N(0, 1)
se
(6.6)
En passant au carr, nous avons un (1). En sommant les termes, nous obtenons :
=
s
e
s
e
c() (6.7)
s
e
c()
(6.8)
(
)(
)
Rappelons lestimation de la pente : b =
(6.9)
(
)
X est non stochastique, Y l'est par l'intermdiaire du terme d'erreur . Nous introduisons l'hypothse
selon laquelle : i N(0, e ).
De fait, y = b + b x+ suit aussi une loi normale, et b tant une combinaison linaire des yi, il
vient :
b b2
sb
N(0, 1)
(6.10)
(6.11)
(
)
Or, on ne dispose pas dune estimation de la variance de l'erreur e . Pour obtenir une estimation
calculable sur un chantillon de donnes de l'cart-type du coefficient b , on doit produire une
b
b =
(
)
(6.12)
c( )
(6.13)
Pour la pente de lestimation des MCO, la distribution de la pente pour l'infrence statistique est la loi
de Student (n2) degrs de libert.
(b b)
racine carr de (6.13) (composante gauche), on obtient cette distribution (quation (6.14)).
(b b)
(b b)
(,)
c
( )
= ()
(6.14)
(bb)
(bb)
(,)
c
()
= ()
(6.15)
De fait, y = b + b x+ suit aussi une loi normale, et b tant une combinaison linaire des yi, il
vient :
bb
b
N(0, 1)
(6.16)
(b) = e +
(b ) =
e +
s
b
(
)
(
)
(6.17)
(6.18)
s
c( )
(6.19)
Si on divise lquation (6.16) par la racine carr de (6.19) (composante gauche), on obtient cette
distribution. Soit :
(bb)
(bb)
(,)
c
()
= ()
bb
s
b
libert. Le test dhypothses bilatral consiste donc comparer le ratio de Student empirique
b
12
13
La table de Student tabule pour les tests bilatraux se trouve en annexe de ce support.
Si le degr de libert est suprieur 30, la loi de Student peut tre approxime par une loi normale.
Page | 30
nous rejetons lhypothse H0 (graphique 7), le coefficient thorique et inconnu b est significativement
diffrent de 0.
Ou bien . . : a < a
Avec a la probabilit critique (p-value) qui correspond la probabilit que la loi de Student dpasse la
statistique calcule t.
O t a est le quantile dordre (1- /2) de la loi de Student.
(6.21)
O t a est le quantile dordre (1- /2) de la loi de Student. Il sagit aussi dun test bilatral.
- Nous calculons les projections pour chaque individu de l'chantillon. Pour le 1er individu, nous
avons : y = b + b x = 145,99 + 0,1703 152 = 153,82
- Nous en dduisons le rsidu (ex. = y y = 152 153,82 = 1,82), que nous passons au
carr (ex. = (1,82) = 3,33).
- Nous ralisons la somme des rsidus au carr, soit
46
152
78
158
85
160
85
162
85
158
85
159
160,47 160,47 -
95
165
162,17
95
165
162,17
100
166
163,02
100
159
100
166
163,02 163,02
103
168
163,53
105
163
105
164
163,87 163,87
115
168
165,57
115
166
165,57
115
162
130
165
165,57 168,13 -
135
167
150
172
1,82
1,27
0,47
1,53
2,47
1,47
2,83
2,83
2,98
4,02
2,98
4,47
0,87
0,13
2,43
0,43
3,57
3,13
1,98
0,46
168,98 171,54
3,33
1,62
0,22
2,35
6,08
2,15
8,02
8,02
8,88
16,16
8,88
19,97
0,76
0,02
5,88
0,18
12,78
9,79
3,92
0,22
)
(Xi -
3 063,62
545,22
267,32
267,32
267,32
267,32
40,32
40,32
1,82
1,82
1,82
2,72
13,32
13,32
186,32
186,32
186,32
820,82
1 132,32
2 366,82
SCR = 119,22
9 672,55
SCR
119,22
=
= 6,623
n2
18
Pour obtenir l'estimation de l'cart-type de la pente, nous avons besoin de la somme des carts la
moyenne au carr des X, c'est--dire (x x) = 3 063,62 + 545,22 + + 2 366,82 = 9 672,55
b =
Nous avons alors :
)
(
,
=
,
, = ,
,
,
= 6,50
Au risque =5%, le seuil critique pour la loi de Student (n-2) degrs de libert pour un test bilatral
est t a = 2,1009. Puisque |6,50| > 2,1009, nous concluons que la pente est significativement non
Si nous tions passs par le calcul de la p-value, nous aurions obtenu14 ' = 0,000004. Puisque ' < ,
nous rejetons de mme lhypothse nulle.
Nous formons aussi la statistique de test pour la constante du modle comme suit : t =
14
En utilisant la fonction du tableur Excel LOI.STUDENT(ABS(6,50) ;18 ;2). Le paramtre 2 pour spcifier que nous
souhaitions obtenir la p-value pour un test bilatral.
Page | 32
t =
|,|
,
x2
i (xi x)
= 53,79
1
20
= 6,623 +
(101,35)
=
9 672,55
7,36 = 2,71
Au risque =5%, le seuil critique pour la loi de Student (n-2) degrs de libert pour un test bilatral
est t a = 2,1009. Puisque |53,79| > 2,1009, nous concluons que la constante est significativement
Si nous tions passs par le calcul de la p-value, nous aurions obtenu15 '=2,455107974304810000000E-21.
Puisque ' < , nous rejetons de mme lhypothse nulle.
Le rsultat est cohrent avec le test de significativit de la pente, l'intervalle de confiance ne contient
pas la valeur 0.
Pour la constante du modle, lintervalle de confiance au niveau 95% est :
[140,29; 151,69]
Les coefficients formant le modle sont entaches d'incertitude, il est normal que la droite de
rgression le soit galement. L'objectif dans ce paragraphe est de produire un intervalle de confiance
de la droite de rgression.
Partant du fait que notre objectif est de modliser au mieux les valeurs de Y en fonction des valeurs
prises par X c'est--dire / = E[Y/X]. Dans la rgression linaire, on fait l'hypothse que la relation
est linaire. / = b + b x
En utilisant la fonction du tableur Excel LOI.STUDENT(ABS(6,51) ;18 ;2). Le paramtre 2 pour spcifier que nous
souhaitions obtenir la p-value pour un test bilatral.
Page | 33
(xi
)
/=
e +
(
)
Enfin, la moyenne conditionnelle estime suit une loi de Student (n 2) degrs de liberts.
Tous ces lments nous permettent de construire l'intervalle de confiance au niveau (1) de la droite
de rgression :
Lexpression +
(
)
(
)
b + b x t a x s
e +
(
)
(
)
trs importante dans la rgression, notamment dans la dtection des points aberrants (atypiques).
Intervalle de confiance de la droite des variables "taille et poids"
Nous formons la feuille Excel de calcul permettant de calculer les bornes infrieures et suprieures de
la droite de rgression (lesprance de Y pour une valeur de X donne) au niveau 95% (tableau 7).
Tableau 7. Calculs pour lintervalle de confiance 95% de la droite de rgression Taille/Poids
Poids (X)
Taille (Y)
46
152
153,82
78
158
159,27
85
160
160,47
85
162
160,47
85
158
160,47
85
159
160,47
95
165
162,17
95
165
162,17
100
166
163,02
100
159
163,02
100
166
163,02
103
168
163,53
105
163
163,87
105
164
163,87
115
168
165,57
115
166
165,57
115
162
165,57
130
165
168,13
135
167
168,98
150
172
171,54
= ,
= 163,25
1,82
1,27
0,47
1,53
2,47
1,47
2,83
2,83
2,98
4,02
2,98
4,47
0,87
0,13
2,43
0,43
3,57
3,13
1,98
0,46
3,33
1,62
0,22
2,35
6,08
2,15
8,02
8,02
8,88
16,16
8,88
19,97
0,76
0,02
5,88
0,18
12,78
9,79
3,92
0,22
SCR= 119,22
)
(Xi -
Borne inf
Borne sup
3 063,62
150,60
157,04
545,22
157,54
161,01
267,32
158,98
161,95
267,32
158,98
161,95
267,32
158,98
161,95
267,32
158,98
161,95
40,32
160,93
163,41
40,32
160,93
163,41
1,82
161,83
164,21
1,82
161,83
164,21
1,82
161,83
164,21
2,72
162,34
164,72
13,32
162,67
165,08
13,32
162,67
165,08
186,32
164,18
166,97
186,32
164,18
166,97
186,32
164,18
166,97
820,82
166,18
170,08
1 132,32
166,81
171,15
2 366,82
168,65
174,42
9 672,55
b = , ; b = ,
Lintervalle de confiance de la droite de rgression se matrialise par deux lignes courbes, des
hyperboles, comme le montre le graphique 1 suivant. Dans la rgression simple, la reprsentation
16
graphique est trs intuitive (Graphique 1). Il y a 95% de chances que la droite soit comprise entre les
deux courbes orange et rouge. En dautres termes, le centre de la cloche des 95 chances sur 100 de se
trouver entre ces deux bornes.
Graphique 1. Reprsentation de l'intervalle de confiance
95% de la droite (Taille/Poids)
180
175
170
165
160
155
y = 0.170x + 145.9
R = 0.701
150
145
140
45
60
75
90
105
120
135
150
Borne inf
Un des buts de la rgression est de faire de la prvision, cest--dire de prvoir la variable expliquer y
en prsence dune nouvelle valeur de la variable explicative x. Pour un nouvel individu donn, partir
de la valeur de lexogne X, nous voulons connatre la valeur que prendrait lendogne Y.
7.1. Prvision ponctuelle
Pour un nouvel individu i*, qui n'appartient pas l'chantillon de donnes ayant particip
l'laboration du modle, connaissant la valeur de xi*, on cherche obtenir la prvision y On applique
directement l'quation de rgression : y = y(x ) = b + b x
On peut vrifier facilement que la prvision est sans biais c'est--dire E[y ] = y .
Pour ce faire, on forme l'erreur de prdiction e = y y et on montre qu'elle est d'esprance nulle.
e = y y = y b + b x
= b + b x + e b + b x
nous avons :
E e = E b b b b x + e = E b b x E b b + E(e ) = 0
= E b b x E b b + E(e )
=0
Cette esprance est nulle si l'on se rfre aux hypothses et aux rsultats des moindres carrs
ordinaires.
En effet, les estimateurs b et b sont sans biais (E(b) = b et E(b) = b), et l'esprance de l'erreur
est nulle. E [e] = 0. Par consquent, la prvision est non biaise c'est--dire : E[y ] = y
7.2. Prvision par intervalle
Page | 36
Une prdiction ponctuelle est intressante. Mais nous ne savons pas quel degr de confiance nous
pouvons lui accorder. Il est donc plus intressant de s'intresser un intervalle de prdiction
(fourchette de prvision) en lui associant une probabilit de recouvrir la vraie valeur yi.
Pour construire la fourchette, nous avons besoin de connatre d'une part la variance de l'erreur de
prdiction et, d'autre part, sa loi de distribution.
Nous obtenons la variance de lerreur de prvision en sappuyant sur le fait que y est fonction de
e seulement tandis que y est fonction des autres erreurs 1 i n :
V(e ) = Vy y = Vy + Vy = se + V(y );
En remplaant les variances et la covariance des coefficients par leurs expressions de (5.8) (5.10) et
et connaissant V(i*) = se , nous avons :
V(y ) = e +
V(y ) =
Ou encore :
+ x
(
)
+ e
(
)
V(e ) = s
e 1 + +
2 x
(
)
= e +
)
(
(
)
e
(
)
(
)
(
)
(7.2)
Quelques remarques
La variance sera d'autant plus petite, et par consquent la fourchette d'autant plus troite, que :
-s
e est faible, c'est--dire la rgression est de bonne qualit.
- n est lev, c'est--dire la taille de l'chantillon ayant servi la construction du modle est lev.
- (x
) est faible, c'est--dire l'observation est proche du centre de gravit du nuage de points (en
abscisse, sur l'axe des X). De fait, l'intervalle de prvision s'vase mesure que x s'loigne de x.
- La somme (
) est leve, c'est--dire la dispersion des points ayant servi la construction
du modle est grande, ils couvrent bien l'espace de reprsentation. En ralit, c'est surtout le rapport
)
(
(
)
qui joue.
se
se
(0,1)
Page | 37
s
e
s
e
t ()
Intervalle de prvision
Nous disposons d'une prdiction non biaise, de la variance et de la loi de distribution, nous pouvons
ds lors dfinir l'intervalle de prdiction au niveau de confiance (1 ) :
y t a x s
e (1 + +
degrs de libert.
(
)
(
)
Nous avons vu dans les paragraphes prcdents que lestimation des paramtres du modle linaire
simple, par les MCO, ncessitait quun certain nombre dhypothse de base sur les rsidus soit vrifi :
lhypothse de normalit, dhomoscdacticit et de non autocorrlation. Ici, on va lever toutes ces
hypothses et on va les tester.
Le diagnostic de la rgression l'aide de l'analyse des rsidus, peut tre ralis avec des tests
statistiques, mais aussi avec des outils graphiques simples.
En effet, lanalyse des rsidus, ei = yi - yi, peut servir doutil pour dterminer si le modle de rgression
estim est appropri, cest dire que les hypothses qui sous - tendent linfrence sur lestimateur des
MCO sont satisfaites.
Nous avons identifi dans le paragraphe 3 les cinq hypothses de base sur le terme derreur :
1. Moyenne zro : E() = 0 E(y) = b + b x.
2.
3.
4.
5.
E(y) = b + b x
Une violation des hypothses 1 et 2 biaise lestimateur des MCO (donc E(b) b) et E(b) b).
Page | 38
Une violation des hypothses 3 5 ne biaise pas lestimateur mais invalide les mthodes infrentielles
que nous avons dvelopps ci-dessus.
Prcdemment, on a not e = Y b b X les termes derreur alatoire dune rgression. Ces
termes permettent de dtecter des dfaillances dans le modle mais ils ne peuvent pas tre calculs
puisquils dpendent de b et b inconnus. Cest pourquoi on introduit les rsidus eou e
aussi consistants) des erreurs e .De plus, on a accs des ralisations des ei en utilisant l'chantillon de
donnes.
On ne peut dterminer la valeur des rsidus quaprs avoir effectu une rgression, mais on les utilise
souvent pour vrifier les hypothses de la rgression. Il existe diffrents types de rsidus : rsidus
simples (ou non standardiss), rsidus standardiss, rsidus studentiss, etc (tableau suivant) :
Type de
rsidus
Rsidus
simples
Rsidus
standardiss
Formules de calcul
Descriptions
e = e = y y
Ces rsidus sont les plus faciles calculer et sont souvent donns par
les logiciels de rgression. Ils sexpriment dans la mme unit que la
variable Y. Ils permettent ventuellement de reprer une valeur
atypique mais ce ne sont pas les meilleurs pour cet objectif car ils
nont pas la mme variance et sont donc difficilement comparables.
r =
h =
s
e
; avec
)
1
(X X
+
)
n (X X
Ces rsidus sont sans unit. Ils sont centrs et rduits, c'est--dire
moyenne nulle et variance gale 1.
Une grande partie de l'infrence statistique (exemple test de pertinence globale de la rgression,
prdiction par intervalle, etc.) repose sur l'hypothse de distribution normale N(0, se ) du terme d'erreur
de l'quation de rgression. Vrifier cette hypothse semble incontournable pour obtenir des rsultats
exacts.
8.1.1. Examen par les tests statistiques
Pour examiner la normalit des rsidus, nous allons retenir trois tests statistiques: tests de
Kolmogorov-Smirnov, de Shapiro-Wilk et de Jarque-Bera.
Test de Kolmogorov-Smirnov
Formulation
Page | 39
Soit X1,,Xn i.i.d. de fonction de rpartition F. On souhaite tester lhypothse H0 : les Xi suivent
une loi normale, contre lhypothse H1 : "les Xi ne suivent pas une loi normale". On note
= x ; S = (x X
)
X
Conclusion : Puisque la p-value (0,200) est > =5%, lhypothse de la normalit des rsidus est
accepte.
Test de Shapiro-Wilk
Formulation
Soit X1,,Xn i.i.d. de loi N(0,1) et X(1) X(n) lchantillon ordonn.
Soit = (E(X(1)), , E(X(n)))'. Soit B la matrice de covariance du vecteur (X(1), ,X(n)) .
Le test de Shapiro-Wilk pour tester lhypothse de normalit des Xi est bas sur la statistique de test :
( aX() )
s
(aBa)
SW =
=
)(aBa) (x X
)
(X X
La zone de rejet est de la forme (SW c,a ). Les ai sont tabuls, ce qui permet de calculer
facilement SW, les quantiles (c,a) sont galement tabuls.
Application sur les donnes de la taille - poids
Avec le logiciel SPSS, la procdure pour dfinir ce test est le mme que celle du test de KolmogorovSmirnov.
Page | 40
Conclusion : Puisque la p-value (0,427) est > =5%, lhypothse de la normalit des rsidus est
accepte.
Avec le logiciel R, la syntaxe et les rsultats se prsentent comme suit :
> donnes=read.spss("taillepoids.sav",to.data.frame=TRUE)
> attach(donnes)
> estimation=lm(taille~poids)
> rsidus=estimation$residuals
> shapiro.test(rsidus)
Shapiro-Wilk normality test
data: rsidus
W = 0.95373, p-value = 0.4274
La p-value de ce test tant plus grande que 0,05, nous dcidons de ne pas rejeter lhypothse nulle, et
de fait, de dcider que les rsidus suivent bien une loi normale.
Test de Jarque-Bera
Formulation
Le test de normalit de Jarque-Bera17 est fond sur les coefficients d'asymtrie S et d'aplatissement K.
Pour une distribution normale, le coefficient dasymtrie est ncessairement nul. De mme pour une
loi normale, le coefficient daplatissement est gal 3. Le test de normalit consiste donc tester
conjointement :
: =&= 3
Les coefficients d'asymtrie et d'aplatissement de Pearson se prsentent comme suit :
m
- = s O S est le moment centr d'ordre 3, et l'cart-type. On sait que S est gal 0 si la
distribution est normale. ;
m
- = s O K le correspond au rapport entre le moment dordre 4 et lcart-type lev la puissance
4. On sait que K est gal 3 si la distribution est normale.
On propose les estimateurs :
s=
(
)
; k =
))
( (
(
)
))
( (
JB = n +
17
()
Ce test ne devient rellement intressant que lorsque les effectifs sont levs.
Page | 41
Somme
Somme/n
eps
1,82
1,27
0,47
1,53
2,47
1,47
2,83
2,83
2,98
4,02
2,98
4,47
0,87
0,13
2,43
0,43
3,57
3,13
1,98
0,46
0,00
0,0000
eps
3,326285
1,621699
0,216756
2,354475
6,079036
2,147896
8,016909
8,016909
8,879846
16,161147
8,879846
19,971983
0,759688
0,016486
5,882489
0,180952
12,777878
9,791509
3,922960
0,216068
119,22
5,9610
eps
-6,066515
-2,065168
-0,100915
3,612777
-14,988289
-3,147892
22,699194
22,699194
26,461116
-64,969314
26,461116
89,254843
-0,662144
0,002117
14,267295
0,076974
-45,676005
-30,638988
-7,769995
0,100435
29,55
1,4775
0,102
k
JB =
1,853
1,302
eps
11,064175
2,629907
0,046983
5,543553
36,954677
4,613456
64,270831
64,270831
78,851666
261,182681
78,851666
398,880114
0,577125
0,000272
34,603671
0,032744
163,274168
95,873642
15,389612
0,046685
1 316,96
65,8479
5,99
Le diagnostic graphique est un outil puissant pour valider une rgression. Il fournit un nombre
important d'informations que les indicateurs statistiques apprhendent mal. Deux graphiques peuvent
tre utiliss afin dattester de la normalit des rsidus. Il sagit de la droite de Henri et de
lhistogramme.
Prsentation
Le graphique Q-Q plot (quantile-quantile plot) est un graphique "nuage de points" qui vise confronter
les quantiles de la distribution empirique et les quantiles d'une distribution thorique normale, de
moyenne et d'cart type estims sur les valeurs observes. Si la distribution est compatible avec la loi
normale, les points forment une droite. Dans la littrature francophone, ce dispositif est appel Droite
de Henry.
Concrtement, il s'agit de :
1. trier les rsidus e de manire croissante pour former la srie x(i) ;
,
,
3. calculer les quantiles thoriques normalises z(i) en utilisant la fonction inverse de la loi normale
centre rduite ;
Page | 42
4. dduire les quantiles thoriques d-normalises x(
e z(i) + x.
) = s
Xbar
STD
x(i)
-4,02
-3,57
-3,13
-2,47
-1,98
-1,82
-1,47
-1,27
-0,87
-0,47
0,13
0,43
0,46
1,53
2,43
2,83
2,83
2,98
2,98
4,47
F(i)
0,0309
0,0802
0,1296
0,1790
0,2284
0,2778
0,3272
0,3765
0,4259
0,4753
0,5247
0,5741
0,6235
0,6728
0,7222
0,7716
0,8210
0,8704
0,9198
0,9691
z(i)
-1,868
-1,403
-1,128
-0,919
-0,744
-0,589
-0,448
-0,315
-0,187
-0,062
0,062
0,187
0,315
0,448
0,589
0,744
0,919
1,128
1,403
1,868
x*(i)
-4,680
-3,515
-2,826
-2,302
-1,864
-1,477
-1,122
-0,788
-0,468
-0,155
0,155
0,468
0,788
1,122
1,477
1,864
2,302
2,826
3,515
4,680
0,000
2,505
Quintiles thoriques
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
-5.0
2.0
1.0
0.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
-1.0
-2.0
-3.0
-4.0
-5.0
Quintiles empiriques
Page | 43
A noter, toutefois, quen prsence dautocorrlation18, lestimateur MCO reste toujours sans biais mais
sa variance nest plus minimale.
Nous sommes en prsence dune autocorrlation des erreurs lorsquelles sont lies par un processus de
reproduction. Nous pouvons distinguer lautocorrlation positive (graphique 1) qui est caractrise par
des successions de rsidus de mme signe, de lautocorrlation ngative (graphique 2) qui est
caractrise par une alternance positive et ngative des rsidus.
Graphique 1. Autocorrlation positive des rsidus
Lanalyse graphique des rsidus permet le plus souvent de dtecter un processus de reproduction des
erreurs lorsque :
- les rsidus sont pendant plusieurs priodes conscutives soit positifs, soit ngatifs : autocorrlation
positive (graphique 1) ;
- les rsidus sont alterns : autocorrlation ngative (graphique 2).
Cependant, le plus souvent, lanalyse graphique est dlicate dinterprtation car le dessin des rsidus
ne prsente pas des caractristiques toujours videntes.
8.2.2. Test de Durbin-Watson
Formulation
Le test de Durbin-Watson permet de dtecter une autocorrlation de la forme :
Lautocorrlation des erreurs est, gnralement, frquente dans les sries temporelles.
Vu sa forme, nous pouvons dire que le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlations des
rsidus d'ordre 1.
19
Page | 44
>0
=0
<0
La valeur de la statistique du test est gale 1,702. Daprs la table de Durbin-Watson, cette valeur est
situe entre dU et 4-dU =4-1,41(1,41-2,59). Donc lhypothse H0 relative labsence
dautocorrlation des rsidus est accepte.
8.3. Problme de lhtroscdasticit
L'homoscdasticit s'observe lorsque la dispersion des rsidus est homogne sur tout le spectre des
valeurs de la variable indpendante. C'est une proprit souhaitable puisque si les rsidus
correspondent bien des alas de mesure, il ny a pas de raison que la dispersion de ces rsidus change
en fonction des valeurs du prdicteur.
8.3.1. Analyse par les tests
Test de Breusch-Pagan
Lhomognit des variances peut tre teste grce au test de Breusch-Pagan. Il a pour hypothse
nulle lhomoscdasticit et pour hypothse alternative lhtroscdasticit :
20
Voir annexes.
Page | 45
> estimation=lm(taille~poids,data=donnes)
> bptest(estimation)
studentized Breusch-Pagan test
data: estimation
BP = 0.098427, df = 1, p-value = 0.7537
La p-value tant suprieure 0,05, nous dcidons de garder lhypothse nulle dhomoscdasticit.
Un autre test quivalent est le test de White, utilisable par la fonction white.test du package bstats ; les
hypothses nulle et alternative sont les mmes que pour le test de Breusch-Pagan :
Formulation
La formule du test de Levene est la suivante :
Avec :
Si H0 est vraie et que les conditions dapplication sont runies (variable y distribue normalement ;
observations indpendantes) alors la statistique W est distribue comme un F de Fisher-Snedecor 1
= g-1 et 2=N-g degrs de libert. Autrement dit, on accepte H0 si W < F1-,1, 2 o ' > .
Application sur les donnes de la taille - poids
Toujours en utilisant le logiciel SPSS, on peut demander le calcul de la statistique du Levure, mais il
va falloir choisir une variable "groupe". Pour cela, nous allons choisir la variable sexe comme facteur
(N=2).
Conclusion
Page | 46
En se basant sur la moyenne, nous avons ' =0,504 > 5%, donc nous acceptons lhypothse H0,
autrement dit lhomoscdasticit des rsidus est accepte.
8.3.2. Analyse par les graphiques
Lapproche par les graphiques, pour vrifier lhypothse de la constance de la variance des rsidus,
consiste produire le nuage de points que lon obtient en prenant les valeurs prdites comme abscisses
et les rsidus comme ordonnes. Les situations possibles sont illustres comme suit :
Poids (X)
Taille (Y)
46
78
85
85
85
85
95
95
100
100
100
103
152
158
160
162
158
159
165
165
166
159
166
168
Page | 47
13
14
15
16
17
18
19
20
105
105
115
115
115
130
135
150
163
164
168
166
162
165
167
172
Nuage de points
Soient les deux variables X et Y, respectivement le poids (en kg) et la taille (en cm).
La procdure suivre pour construire le digramme du nuage des points, sous le logiciel SPSS,
est comme suit :
a. Mode menu
b. Mode syntaxe
Page | 48
Le nuage de points (figure ci-dessus) indique que les couples de valeurs sont
approximativement aligns : les deux variables semblent corrles positivement.
1.1.2.
c. Mode menu
Page | 49
d. Mode syntaxe
CORRELATIONS /VARIABLES=Taille_Y Poids_X
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.
X Poids en kilogrammes
Y Taille en centimtres
Corrlation de Pearson
Sig. (bilatrale)
N
Corrlation de Pearson
Sig. (bilatrale)
N
X Poids
Y Taille
en kilogrammes en centimtres
1
.838**
.000
20
20
.838**
1
.000
20
20
Le tableau obtenu est une matrice symtrique21. Da manire horizontale ou verticale, on peut lire les
corrlations de Y avec Y et X. Les coefficients calculs ont t valus dun point de vue statistique.
SPSS indique dans cette sortie le niveau de significativit de deux faons : lune chiffre (0,838) et
lautre par ** (la corrlation est significative au niveau 0,01-bilatral-).
Par ailleurs, le test dhypothse relatif au coefficient de corrlation se prsente comme suit :
t =
Nous avons
,
t = 6,516 > t
(2,1009)
|0,838|
(1 0,838)
20 2
significativement diffrent de 0.
Sur les donnes du tableau ci-dessus, la premire tape consiste regarder les donnes pour vrifier
quune liaison linaire est envisageable (Proc GRAPH /SCATTERPLOT(BIVAR)). Puis en deuxime
tape on calcule le coefficient de corrlation (Proc CORRELLATIONS). Cette deuxime tape non
21
indispensable en rgression simple deviendra essentielle en rgression multiple. Enfin on effectue une
rgression linaire (Procdure REGRESSION).
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Taille_Y
/METHOD=ENTER Poids_X.
Pour faire appel la procdure de rgression simple en SPSS, on procde comme suit :
Aprs avoir cliqu sur loption Linaire, on compltera comme indiqu la fentre qui souvre.
Figure 3. Commande SPSS pour la rgression linaire : fentre principale
Lextrait du listing de la rgression linaire simple obtenu, soit en excutant le programme SPSS ci-dessus
ou en utilisant le mode interactif du mme logiciel, se prsente comme suit22 :
Tableau 3. Extrait du listing de rgression linaire simple
Coefficientsa
Coefficients non
Coefficients
standardiss
standardiss
Modle
A
(Constante)
1
X Poids en
kilogrammes
Erreur
standard
145.990
2.714
.170
.026
95.0% % intervalles de
t
Sig.
Borne
Limite
infrieure
suprieure
53.795 .000
140.288
151.691
6.508 .000
.115
.225
Bta
.838
confiance pour B
22
Pour des raisons pdagogiques, seul le tableau donnant lestimation des paramtres sera prsent.
Page | 51
Modle
1
R
.838
R-deux
a
R-deux ajust
.702
l'estimation
.685
2.574
ANOVA
Modle
Rgression
280.529
280.529
Rsidu
119.221
18
6.623
Total
399.750
19
Sig.
42.354 .000a
23
Il ne peut pas y avoir de contradictions entre ces deux visions de toute manire.
Page | 52
Tous les rsultats vu dans la section 2 de ce support peuvent tre obtenus facilement en partant des
valeurs fournies par la fonction DROITEREG d'Excel. Nous allons reproduire les donnes du tableau 1
relatives aux variables taille et poids, partir des sorties de la fonction DROITEREG du tableur
EXCEL, nous avons tabli les principaux indicateurs d'valuation globale et individuelle des
coefficients (Figure suivante). Nous avons volontairement affich les en-ttes des lignes et colonnes de
la feuille Excel pour rendre la lecture plus facile.
Nous disposons du tableau de donnes de 20 observations en B2 :C21. Nous insrons la fonction
DROITEREG sur la plage F3 : G7. Elle fournit les coefficients estims sur la premire ligne, nous
rservons autant de colonnes qu'il y a de coefficients (2 dans notre cas, la pente et la constante de la
rgression) ; et, si nous souhaitons consulter les statistiques intermdiaires relatifs la rgression, nous
devons rserver 4 lignes supplmentaires (5 lignes en tout). Par ailleurs, tant donn quil s'agit d'une
Page | 53
fonction matricielle, elle complte directement plusieurs cellules, nous devons donc valider en
appuyant simultanment sur les touches CTRL + MAJ + ENTREE.
Sorties de la fonction DROITEREG dEXCEL (Taille et poids)
Il est remarquer que toutes les valeurs calcules par la fonction DROITEREG sont identiques celles
que nous avions tablies par le logiciel SPSS et calculs manuels avec un tableur.
3. Rgression linaire simple avec le logiciel R
3.1. La corrlation
Soient les deux variables X et Y, respectivement le poids (en kg) et la taille (en cm).
- lecture de donnes
> donnes=read.spss("taillepoids.sav",to.data.frame=TRUE)
- manipulables des variables par leurs propres noms
> attach(donnes)
3.1.1. Nuage de points
- digramme du nuage des points
> plot(donnes)
- ajustement du nuage par une droite linaire
> abline(estimation)
> cor(donnes)
poids taille
poids 1.0000000 0.8377121
taille 0.8377121 1.0000000
> estimation=lm(taille~poids)
- estimation du mole (toutes les informations)
> summary(estimation)
Call:
lm(formula = taille ~ poids)
Residuals:
Min
1Q Median
3Q Max
-4.0201 -1.8630 -0.1686 2.5269 4.4690
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.98994 2.71384 53.795 < 2e-16 ***
poids
0.17030 0.02617 6.508 4.05e-06 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.574 on 18 degrees of freedom
Multiple R-squared: 0.7018, Adjusted R-squared: 0.6852
F-statistic: 42.35 on 1 and 18 DF, p-value: 4.05e-06
Puisque les "p-value" des deux paramtres p-value ' codes : 0 *** sont gales 0,000 <
=0,05, on conclut que les deux paramtres sont diffrents de zro.
3.2.3. Tableau de lanalyse de la variance
> anova(estimation)
Analysis of Variance Table
Response: taille
Df Sum Sq Mean Sq F value Pr(>F)
poids
1 280.53 280.529 42.354 4.05e-06 ***
Residuals 18 119.22 6.623
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
p-value ' codes : 0 *** qui galise la valeur 0,000 et qui est infrieure =0,05. La conclusion
est la mme24.
24
Il ne peut pas y avoir de contradictions entre ces deux visions de toute manire.
Page | 55
Nous devons estimer les valeurs des (p + 1) paramtres (a0, a1, . . . , ap) partir d'un chantillon de n
observations. Nous remarquons dans le modle (1) :
- i = 1, . . . , n correspond au numro des observations ;
- yi est la i-me observation de la variable Y ;
- xi,j est la i-me observation de la j-me variable ;
- i est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer
linairement les valeurs de Y l'aide des p variables Xj (ex. problme de spcification, valeurs
exognes manquantes, etc.).
Les tapes processus de modlisation sont les suivantes :
1. Estimer les valeurs des coefficients (a0, a1, . . . , ap) partir d'un chantillon de donnes (estimateur
des moindres carrs ordinaires).
2. valuer la prcision de ces estimations (biais, variance des estimateurs).
3. Mesurer le pouvoir explicatif du modle dans sa globalit (tableau d'analyse de variance,
coefficient de dtermination).
4. Tester la ralit de la relation entre Y et les exognes Xj (test de significativit globale de la
rgression).
5. Tester l'apport marginal de chaque variable explicative dans l'explication de Y (test de
significativit de chaque coefficient).
6. Tester l'apport d'un groupe de variables explicatives dans l'explication de Y (test de significativit
simultane d'un groupe de coefficient).
7. Pour un nouvel individu i pour lequel on fournit la description (xi;1, . . . , xi;p), calculer la
valeur prdite y et la fourchette de prdiction.
8. Interprter les rsultats en mettant en avant notamment l'impact des exognes sur l'endogne
(interprtation des coefficients, analyse structurelle).
Partant du fait que la modlisation est un processus itratif, nous allons aussi tudier dautres notions,
notamment :
Page | 56
- L'tude des rsidus, graphiquement mais aussi numriquement avec les tests de normalit, les tests
du caractre alatoire des erreurs.
- La dtection des points aberrants et influents, ces points qui peuvent peser de manire indue sur les
rsultats de la rgression.
- Les problmes de colinarit et la slection de variables.
2. NOTATION MATRICIELLE
Le modle de rgression linaire multiple, observation par observation est crit comme suit :
y = a + ax + ax + ax + + ax+e
y = a + ax + ax + ax + + ax+e
. . .
y = a + ax + ax + ax + + ax+e
. . .
y = a + ax + ax + ax + + ax+e
Y = Xa +
Ou encore :
=
1
x x
O : Y = ; X =
1
x x
e
e
e
e
e
e
;a= ;e=
- Y (n, 1)
- X (n, p + 1)
- a (p + 1, 1)
- (n, 1)
La matrice X de taille (n, p+1) contient l'ensemble des observations sur les exognes, avec une
premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.
3. HYPOTHESES
Comme pour la rgression simple, les hypothses permettront de dterminer les proprits des
estimateurs (biais, convergence) et les lois de distribution (loi de Student pour chaque coefficient pris
individuellement, loi de Fisher ds que l'on traite un groupe de coefficients).
Nous distinguons les hypothses stochastiques et les hypothses structurelles.
3.1. HYPOTHESES STOCHASTIQUES (de nature probabiliste)
H2 : E[i] = 0, l'esprance de l'erreur est nulle. En moyenne, le modle est bien spcifi.
H3 : E[ ] = e , la variance de l'erreur est constante, c'est l'hypothse de homoscdasticit.
H4 : COV (i,i) = 0 pour i i, les erreurs sont indpendantes, c'est l'hypothse de non autocorrlation
des rsidus.
H5 : COV (xij, i) = 0, l'erreur est indpendante des variables exognes.
H6 : i N(0, e ), les erreurs sont distribus selon une loi normale.
3.2. Les hypothses structurelles
Les hypothses structurelles se prsentent comme suit :
H1 : La matrice (XX) est rgulire cest dire det(XX) 0 et (XX)1 existe. Elle indique l'absence
de colinarit entre les exognes. Nous pouvons aussi voir cette hypothse sous l'angle rang(X) = p + 1
et rang(XX) = p + 1.
H2 :
()
Nous avons (p + 1) quations (p + 1) inconnues. Nous pouvons en extraire les estimations (a, a,
a2,. . . , a). Puisque cette criture est difficile manipuler, nous utilisons les matrices.
4.2.Ecriture matricielle
Soit le vecteur des erreurs, avec = (1, . . . , n). La somme des carrs des erreurs devient :
S = e = e e (1)
S = ee = (Y Xa) (Y Xa)
Page | 58
= Y Y Y Xa aX Y + aX Xa
= Y Y 2aX Y + aX Xa
La rsolution de ce systme n'est pas toujours possible. Cette rsolution est lie la possibilit
d'inversion de la matrice (X X).
4.3. Exemple : consommation des vhicules
1 846 32 650
= 1 993 39 790 ;
28
2176
50654
33515
XX =
21473,7
321404,5
- Enfin, nous obtenons les estimations des paramtres de la rgression en calculant a a = (X X)X Y
- Le modle scrit :
a
1,7020
a
0,0005
a = =
0,0183
a
0,0042
a
A travers la lecture du modle trouv, nous constatons que toutes les variables jouent positivement sur
la consommation. Autrement dit, la cylindre, la puissance ou le poids des vhicules augmentent, la
consommation (en litres/100km) a tendance augmenter.
Page | 59
Un accroissement dune unit sur la VI Xj se traduit par un accroissement de a units sur la VD.
Le tableau suivant donne le dtail des calculs intermdiaires relatifs lestimation des paramtres.
Calculs matriciels de lexemple de la consommation des vhicules
X
Constante Cylindre Puissance Poids
1
846
32
650
1
993
39
790
1
899
29
730
1
1390
44
955
1
1195
33
895
Y
Consommation
5,7
5,8
6,1
6,5
6,8
1
1
1
1
1
1
1
1
1
1
1
1
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
32
55
74
74
101
85
85
89
65
54
66
106
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
1
1
1
1
1
1
1
1
1
1
1
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473
55
107
150
122
66
125
89
92
85
97
125
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7
X'X
28
50654
2176
50654 102138444
4451219
2176
4451219
197200
33515 65113780
2831550
33515
65113780
2831550
42694125
(X'X)-1
0,70598604 -0,00014708 0,00558634 -0,00070038
-0,00014708 0,00000107 -0,00001589 -0,00000047
0,00558634 -0,00001589 0,00035837 -0,00000392
-0,00070038 -0,00000047 -0,00000392 0,00000155
X'Y
254,1
493218,1
21473,7
321404,5
Constante
Cylindre
Puissance
Poids
1,7020
0,0005
0,0183
0,0042
Les matrices (XX)1 et (XY) qui entrent dans la composition de a peuvent tre interprtes d'une
manire qui nous claire sur l'influence des variables dans l'estimation.
a. Matrice (XX)
Chaque case de la matrice (XX), de dimension (p+1, p+1), est forme par la somme du produit crois
entre les exognes, en effet :
(XX) est une matrice symtrique. Elle indique le degr de liaison entre les exognes.
b. Matrice (X'Y)
Chaque case du vecteur (XY), de dimension (p+1,1), est compose du produit crois entre les
exognes et l'endogne.
(XY)
Page | 60
Nous pouvons lire le coefficient de la manire suivante : une augmentation du poids d'un vhicule de
1kg entrane une consommation supplmentaire de 0,00669 litres au km. On mesure l'association
brute, en dehors de toute considration des autres variables qui pourraient influencer la consommation.
La pente de la rgression est trs significative 5% avec un t de Student gal :
tpoids = 0,00669/0,00053 = 12,53805 > > t0,975 (12,53805) = 2,18.
Lecture des coefficients de la rgression(consommation des vhicules)
X
Cylindre Poids
846
650
993
790
899
730
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570
Y
Consommation
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7
DROITEREG
Poids
Constante
0,00669
1,06269
0,00053
0,65925
SCE
t0,975
0,85808
157,20
0,85719
26
DROITEREG
Poids
Cylindre Constante
0,0044
0,0013
1,4176
0,0009
0,0005
0,5993
4,7378
2,8134
2,7764
4,3027
-
5.2.Coefficients partiels
Ralisons maintenant la mme rgression en introduisant la variable cylindre (tableau suivant). Le
coefficient de poids a t modifi : =0,00443 x poids + 0,00130 x Cylindree + 1,41755
Les deux variables sont significatives 5% (tableau ci-dessus).
Page | 61
La modification du coefficient de poids s'explique par le fait que la variable poids est lie la variable
cylindre. Le coefficient de corrlation rpoids,cylindree = 0,8616 le montre bien. Lorsque la cylindre
augmente, le poids varie galement, dans le mme sens : a en tient compte.
Le nouveau coefficient se lit de la manire suivante : cylindre gale, lorsque le poids augmente de
1kg, la consommation s'accrotra de 0,00443 litres au km. C'est le fameux "toutes choses gales par
ailleurs". On parle alors de coefficient partiel. Nous avons neutralis l'impact de la cylindre sur le
poids dans la dtermination de l'influence de ce dernier sur la consommation.
Pour expliquer ce phnomne, nous essayons une petite exprience. Nous allons retrancher la partie de
poids explique par la cylindre en calculant le rsidu de la rgression (poids = a0 + a1 x cylindree).
Puis, nous introduisons ce rsidu comme variable explicative dans la rgression simple expliquant la
consommation : (Y = b0 + b1 x rsidu). Si notre explication tient la route, la pente b1 devrait
correspondre au coefficient partiel 0,00443.
La rgression de la variable poids sur cylindre donne ce qui suit :
Poids = 0,4269 x cylindree + 424,75
Il est significatif avec un coefficient de dtermination R = 0,74. Nous calculons les rsidus en
dduisant du poids observ le poids prdit par le modle : rsidus(poids/cylindree) = poids (0,4269 x
cylindree + 424,75). Le rsidu reprsente la fraction de poids qui n'est pas explique par la cylindre.
Nous l'introduisons comme variable explicative dans la rgression expliquant la consommation :
Y = 0,00443 x rsidus + 9,075
b1 = 0,00443 reprsente l'impact du poids sur la consommation en dehors de (en contrlant, en
neutralisant) l'influence de la cylindre et, nous retrouvons le coefficient partiel de la rgression
multiple.
X
Cylindre Poids
846
650
993
790
899
730
1390
955
1195
895
658
740
1331
1010
1597
1080
1761
1100
2165
1500
1983
1075
1984
1155
1998
1140
1580
1080
1390
1110
1396
1140
2435
1370
1242
940
2972
1400
2958
1550
2497
1330
1998
1300
2496
1670
1998
1560
1997
1240
1984
1635
2438
1800
2473
1570
Y
Consommation
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7
Poids^
785,9
848,6
808,5
1018,1
934,8
705,6
992,9
1106,4
1176,4
1348,9
1271,2
1271,6
1277,6
1099,2
1018,1
1020,6
1464,1
954,9
1693,4
1687,4
1490,6
1277,6
1490,2
1277,6
1277,2
1271,6
1465,4
1480,4
rsid(poids/cyl)
-135,9
-58,6
-78,5
-63,1
-39,8
34,4
17,1
-26,4
-76,4
151,1
-196,2
-116,6
-137,6
-19,2
91,9
119,4
-94,1
-14,9
-293,4
-137,4
-160,6
22,4
179,8
282,4
-37,2
363,4
334,6
89,6
Poids = a0 + a1 Cylindree
a1
a0
0,4269
424,75
b^
Y = b0 + b1 Rsidus
b1
b0
0,0044
9,08
5.3.Coefficients standardiss
Les quations de rgression dcrivent la relation entre la VD et un groupe de VI, et leurs coefficients
de rgression non standardiss mesurent les effets des variables indpendantes sur la variable
dpendante. Cependant, la taille du coefficient de rgression dpend des units de mesure des
variables. Dans ce cas, cest difficile de savoir laquelle des variables est la plus importante. On ne peut
Page | 62
pas comparer directement les coefficients de rgression des variables car ils dpendent de lchelle de
mesure des variables prdictrices et de la variable expliquer.
Il est clair quil nous faut une bonne mesure des effets des VI qui tienne compte des diffrences
dunits de mesure tout en contrlant les effets des autres variables indpendantes.
Cette statistique existe et sappelle justement les coefficients de rgression standardiss, ou de faon
plus simple, les coefficients Bta.
Revenons la rgression multiple expliquant la consommation partir du poids et de la cylindre
(tableau ci-dessus). Nous avons =, + , + ,
Les coefficients indiquent l'impact des exognes en contrlant les autres variables. Il reste nanmoins
une question cl : quelle est la variable qui a le plus d'influence sur la consommation, le poids ou la
cylindre ?
Les variations d'une unit de poids et d'une unit de cylindre ne reprsentent pas la mme chose, elles
ne sont pas opposables. Pour les rendre comparables, nous devons standardiser les coefficients et
raisonner en termes d'carts-type. Nous obtiendrions une lecture du type : lorsque le poids (la
cylindre) varie de 1 cart-type, la consommation varie de a1 (a2) carts-type.
Rgression sur donnes centres et rduites
Une technique simple permettant d'obtenir les coefficients standardiss (Btas) consiste centrer et
rduire toutes les variables (exognes et endogne) et lancer la rgression sur les donnes
transformes. Nous avons ralis cette opration sur notre fichier. Les tapes de calcules de ces
coefficients se prsentent comme suit :
- Etape 1 : Soient y, x et s, s respectivement les moyennes et les cart-type de la variable
- Etape 2 : le modle retient dans ce cas des variables centres rduites. On estime les paramtres de
la rgression linaire multiple par la mthode des moindres carrs ordinaires. Les coefficients obtenus
sappelles coefficients standardiss bta .
Le tableau suivant illustre cette mthode de calcul de ces coefficients pour la consommation des
vhicules.
Ycr = 0,6128 x poidscr + 0,3639 x cylindrecr + 0,0000
Les variables tant centres, la constante est nulle. Nous pouvons lire les rsultats en termes d'cartstype et comparer les coefficients. Lorsque le poids (respectivement la cylindre) augmente de 1 carttype, la consommation augmente de 0,6128 fois (respectivement 0,3639) son cart-type. Maintenant,
nous pouvons dire que le poids pse, comparativement, plus sur la consommation que la cylindre.
Ces coefficients standardiss sont souvent directement fournis par les logiciels de statistique pour
indiquer l'importance relative des variables (Coefficients standardiss Bta- pour SPSS).
Page | 63
Xj
Cylindre
846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473
E-T 623,661
Y
Poids
650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570
308,993
Consommation
Cylindre Poids
5,7
-1,544 -1,770
5,8
-1,309 -1,317
6,1
-1,459 -1,511
6,5
-0,672 -0,783
6,8
-0,985 -0,977
6,8
-1,846 -1,479
7,1
-0,767 -0,605
7,4
-0,340 -0,379
9,0
-0,077 -0,314
11,7
0,571
0,981
9,5
0,279
-0,395
9,5
0,280
-0,136
8,8
0,303
-0,184
9,3
-0,367 -0,379
8,6
-0,672 -0,281
7,7
-0,662 -0,184
10,8
1,004
0,560
6,6
-0,909 -0,832
11,7
1,865
0,657
11,9
1,842
1,143
10,8
1,103
0,431
7,6
0,303
0,333
11,3
1,101
1,531
10,8
0,303
1,175
9,2
0,301
0,139
11,6
0,280
1,418
12,8
1,008
1,952
12,7
1,065
1,207
Moy 0 - 0
2,233
E-T
1
1
Consommation
-1,512
-1,467
-1,332
-1,153
-1,019
-1,019
-0,885
-0,750
-0,034
1,176
0,190
0,190
-0,123
0,101
-0,213
-0,616
0,773
-1,108
1,176
1,265
0,773
-0,661
0,996
0,773
0,056
1,131
1,668
1,623
0
1
DROITEREG
Poids
0,00443
Cylindree
0,00130
Constante
1,41755
Les mmes rsultats sont obtenus en utilisant le logiciel SPSS (tableau suivant) :
= 0,00443 x
308,993
= 0,6128
2,233
s
s
C'est ainsi que pour la variable poids, nous retrouvons le coefficient obtenu sur les donnes centres et
rduites. Il en de mme pour la variable cylindre.
b = ax
= 0,00130 x
623,661
= 0,3639
2,233
L'estimateur a est sans biais si E(a) = a. Dans quelles conditions cette proprit est respecte ?
Pour rpondre cette question, dveloppons a:
Or, on sait que X est non alatoire, nous avons E[(XX)1X] = (XX)1XE() ; de plus E() = 0 par
hypothse. Nous avons bien :
L'estimateur des MCO est sans biais sous les deux hypothses suivantes ( 3.2) : (H1) X est non
alatoire, les exognes sont mesures sans erreur ; (H2) la moyenne de l'erreur est nulle E() = 0.
6.2.Variance-convergence
Soit W , de dimension (p+1, p+1) la matrice de variance covariance des coefficients c'est--dire
La matrice est symtrique, sur la diagonale principale nous observons les variances des coefficients
estims. Comment obtenir cette matrice ?
Elle est dfinie de la manire suivante :
Or
Ainsi,
En passant l'esprance mathmatique, et sachant que les X sont non-stochastiques (H1),
La quantit E[], de dimension (n, n), reprsente la matrice de variance covariance des erreurs, en
voici le dtail :
Page | 65
Nous observons les variances des erreurs sur la diagonale principale, et les covariances sur les autres
cases. Or, par hypothse ( 3.2), (H3) la variance de l'erreur est constante V (i) = E() = se et, (H4)
leurs covariances nulles COV(i, i) = 0. De fait,
On montre qu'une condition ncessaire et suffisante pour que asoit un estimateur convergent de a est
que les variables exognes ne tendent pas devenir colinaires lorsque n tend vers l'infini, autrement
dit que l'hypothse (H8) reste valable lorsque n tend vers l'infini.
7. Estimation des variances
7.1. Estimation de la variance de lerreur
L'expression de la variance covariance des coefficients estims, ci-dessus, est trs jolie mais
inutilisable tant que l'on ne dispose pas d'une estimation de la variance de l'erreur se .
Par analogie avec la rgression simple, nous la comprenons comme le rapport entre la somme des
carrs des rsidus (SCR) et le nombre de degrs de libert de la rgression, soit le nombre
d'observations moins le nombre de paramtres estims : [n (p + 1) = n p 1]. Ainsi, nous crirons
Sur la diagonale principale de cette matrice, nous disposons de l'estimation de la variance des
coefficients et, en passant la racine carre, de leur cart-type. Leur rle sera trs important dans
l'infrence statistique.
7.3.Dtails des calculs pour les donnes "Consommation des vhicules"
Page | 66
Nous reprenons notre exemple des vhicules. Nous avons reconstruit la feuille de calcul de manire
obtenir les lments ncessaires l'estimation de la variance de l'erreur et de la matrice de variance
covariance des coefficients estims (tableau suivant).
Nous reprenons des rsultats prcdents la matrice (XX)1 et les coefficients estims a .
Nous formons alors :
- La valeur prdite de l'endogne y pour chaque individu (ex. y = 1,07020 + 0,0005 846 + 0,0183
32 + 0,0042 650 = 5,4523).
- Le rsidu e= yi y (ex. e = y1 y = 5,7 5,4523 = 0,2477.
Estimation de la variance de lerreur et des coefficients estims
Consommation
1
1
1
1
1
1
1
1
1
846
993
899
1390
1195
658
1331
1597
1761
32
39
29
44
33
32
55
74
74
650
790
730
955
895
740
1010
1080
1100
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9
5,4523
6,2447
5,7621
7,2296
6,6789
5,7402
7,6339
8,4079
8,5734
2165
1983
1
1
1
1
1
0,2477
-0,4447
0,3379
-0,7296
0,1211
1,0598
-0,5339
-1,0079
0,4266
0,0613
0,1978
0,1142
0,5324
0,0147
1,1233
0,2850
1,0159
0,1820
Constante
cylindree
puissance
poids
n
p
ddl
SCR
1,7020
0,0005
0,0183
0,0042
28
3
24
13,5807
101
1500
11,7
10,9571
0,7429
0,5519
0,5659
85
1075
9,5
8,7780
0,7220
0,5212
0,7522
1984
1998
1580
1390
1396
85
89
65
54
66
1155
1140
1080
1110
1140
9,5
8,8
9,3
8,6
7,7
9,1168
9,1333
8,2353
8,0676
8,4164
0,3832
-0,3333
1,0647
0,5324
-0,7164
0,1468
0,1111
1,1336
0,2834
0,5133
2435
106
1370
10,8
10,6319
0,1681
0,0283
1
1
1
1
1
1
1
1
1
1
1
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473
55
107
150
122
66
125
89
92
85
97
125
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7
7,2939
11,0420
12,4542
10,7853
9,3902
12,2774
10,9094
9,6105
11,1467
12,2875
11,8432
-0,6939
0,6580
-0,5542
0,0147
-1,7902
-0,9774
-0,1094
-0,4105
0,4533
0,5125
0,8568
0,4815
0,4329
0,3072
0,0002
3,2047
0,9553
0,0120
0,1685
0,2055
0,2626
0,7342
0,6321
0,0008
0,0142
0,0009
0,7059860
-0,0001471
0,0055863
-0,0007004
(X'X)-1
-0,0001471
0,0055863
0,0000011
-0,0000159
-0,0000159
0,0003584
-0,0000005
-0,0000039
-0,0007004
-0,0000005
-0,0000039
0,0000015
0,3994902
-0,0000832
0,0031611
-0,0003963
-0,0000832
0,0000006
-0,0000090
-0,0000003
-0,0003963
-0,0000003
-0,0000022
0,0000009
0,0031611
-0,0000090
0,0002028
-0,0000022
- Nous sommons pour obtenir la SCR (dans notre exemple, SCR = 0,0613 + 0,1978 + = 135807).
- L'estimation de la variance de l'erreur s'crit :
0,3994902
0,0000006
0,0002028
0,0000009
8. Tests de significativit
8.1. Tableau d'analyse de variance et coefficient de dtermination
La dcomposition de la variabilit de Y (SCT) en variabilit explique par le modle (SCE) et
variabilit rsiduelle (SCR) reste valable. Nous pouvons construire une nouvelle version du tableau
d'analyse de variance qui tient compte des nouvelles valeurs des degrs de libert puisque nous
estimons (p+1) paramtres maintenant.
Tableau danalyse de la variance pour la rgression linaire multiple
La part de la de variance de Y explique par le modle est toujours traduit par le coefficient de
dtermination.
Nous avons 0 R2 1, plus ce coefficient tend vers 1 meilleur sera le modle. Lorsqu'il est proche de
0, cela veut dire que les exognes Xj n'expliquent en rien les valeurs prises par Y. Nous retiendrons
cette ide dans le test de significativit globale du modle.
8.1.1.
R corrig ou ajust
Le R est un indicateur de qualit, mais il prsente un dfaut: plus nous augmentons le nombre de
variables explicatives, mme non pertinentes, n'ayant aucun rapport avec le problme que l'on cherche
rsoudre, plus grande sera sa valeur, mcaniquement.
A l'extrme, si nous multiplions le nombre d'explicatives jusqu' ce que (p+1) soit gal n, nous
obtiendrions un R2 = 1.
Pour montrer linconvnient de lutilisation de R dans la comparaison des modles, nous allons
analyser un exemple. Dans cet exemple, nous souhaitons expliquer la teneur en oxyde de carbone
(CO) des cigarettes partir de leur composition en goudron (GOUDRON), en nicotine (NICOTINE) et
leur poids (POIDS). Nous disposons de n = 24 observations. Nous ralisons la rgression l'aide de
Page | 68
DROITEREG, nous obtenons un R2 = 0,93498 (tableau de calculs dtaills). Le degr de libert est :
ddl = 24 3 1 = 20.
Tableau des calculs - Donnes cigarettes Comparaison de modles imbriqus via R et R-ajustX
GOUDRON
NICOTINE
POIDS
14,1
16
8
4,1
15
8,8
12,4
16,6
14,9
13,7
15,1
7,8
11,4
9
1
17
12,8
15,8
4,5
14,5
7,3
8,6
15,2
12
0,86
1,06
0,67
0,4
1,04
0,76
0,95
1,12
1,02
1,01
0,9
0,57
0,78
0,74
0,13
1,26
1,08
0,96
0,42
1,01
0,61
0,69
1,02
0,82
0,9853
1,0938
0,9280
0,9462
0,8885
1,0267
0,9225
0,9372
0,8858
0,9643
0,9316
0,9705
1,1240
0,8517
0,7851
0,9186
1,0395
0,9573
0,9106
1,0070
0,9806
0,9693
0,9496
1,1184
ALEA
0,86804
0,53437
0,75873
0,16260
0,90932
0,37099
0,22998
0,09987
0,16451
0,54952
0,84421
0,13217
0,43316
0,62589
0,44693
0,68114
0,57355
0,77212
0,84903
0,68158
0,00994
0,21606
0,11609
0,42401
Y
CO
13,6
16,6
10,2
5,4
15
9
12,3
16,3
15,4
13
14,4
10
10,2
9,5
1,5
18,5
12,6
17,5
4,9
15,9
8,5
10,6
13,9
14,9
R
F
SCE
SCT
CMR
CMT
2,07934
3,17842
0,93498
95,85850
386,84565
413,74958
1,34519686
17,9891123
NICOTINE GOUDRON
0,51847
3,25233
1,15983
20,00000
26,90394
0,88758
0,19548
#N/A
#N/A
#N/A
Constante
-0,55170
2,97128
#N/A
#N/A
#N/A
SCR
R
F
SCE
SCT
CMR
CMT
0,06820
0,91249
0,93499
68,32065
386,85355
413,74958
1,41558053
17,239566
NICOTINE
2,11438
3,29404
1,18978
19,00000
26,89603
GOUDRON
0,55708
3,37609
#N/A
#N/A
#N/A
Constante
0,88429
0,20530
#N/A
#N/A
#N/A
SCR
R Ajust (1)
0,92522
R Ajust (2) 0,91788769
Ajoutons la colonne ALEA dans le tableau de donnes. Elle a t gnre alatoirement avec la
fonction ALEA() d'Excel [loi uniforme U(0,1)]. Nous effectuons de nouveau la rgression en intgrant
ALEA parmi les explicatives. Le degr de libert est diminu, il est pass ddl = 19, tmoin que la
variable supplmentaire a bien t prise en compte. Malgr que la variable n'ait aucun rapport avec le
problme que nous traitons, nous dcouvrons que le R a t augment, passant R = 0,9356. ALEA
permettrait donc d'expliquer la teneur en carbone des cigarettes ?
Clairement le R en tant que tel n'est pas un bon outil pour valuer le rle de variables supplmentaires
lors de la comparaison de modles imbriqus. En augmentant le nombre d'explicatives, nous
augmentons de manire mcanique la valeur du R mais, dans le mme temps, nous diminuons le
degr de libert. Il faudrait donc intgrer cette dernire notion pour contrecarrer l'volution du R. C'est
exactement ce que fait le R-ajust (ou R-corrig).
Le R-ajust est dfini de la manire suivante :
Il s'agit donc d'un R corrig par les degrs de libert, il peut s'exprimer en fonction du R d'ailleurs :
Attention, la lecture en termes de part de variance explique n'est plus possible dans ce cas. De mme,
peut prendre des valeurs ngatives.
le R
Page | 69
Le R-ajust en tant que tel n'est pas d'une grande utilit. Son principal avantage est qu'il permet de
comparer des modles imbriqus. Si nous prenons notre exemple des cigarettes (Figure 10.1), nous
= 0,921918 < R
= 0,92522
constatons que le R-ajust du second modle est plus faible avec R
indiquant clairement que l'adjonction de ALEA parmi les exognes n'amne pas d'information
pertinente supplmentaire dans l'explication de Y.
8.1.2.
A l'instar de la rgression linaire simple, le coefficient de corrlation linaire multiple est gal la
racine carre du coefficient de dtermination.
R = R
Cela suggre de construire le graphique nuage de points confrontant yi et y pour valuer la qualit de
la rgression. Si le modle est parfait, les points seraient aligns sur la premire bissectrice.
8.1.3.
Reprenons les donnes du tableau de lanalyse de variance, trouves par la fonction DROITEREG, et
traons le graphique Y observ et Y calcul.
X
Consommation
846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473
32
39
29
44
33
32
55
74
74
101
85
85
89
65
54
66
106
55
107
150
122
66
125
89
92
85
97
125
650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7
DROITEREG
5,45
6,24
5,76
7,23
6,68
5,74
7,63
8,41
8,57
10,96
8,78
9,12
9,13
8,24
8,07
8,42
10,63
7,29
11,04
12,45
10,79
9,39
12,28
10,91
9,61
11,15
12,29
11,84
constante
cylindree
puissance
poids
1,7020
0,0005
0,0183
0,0042
0,6321
poids
puissance cylindree constante
0,0008
0,0042
0,0183
0,0005
1,7020
0,0142
0,00094
0,01424 0,00078
0,63205
0,0009 R
0,89911
0,75224 #N/A
#N/A
F
71,29651 24,00000 #N/A
#N/A
SCE 121,03183 13,58067 #N/A
#N/A
SCR
Tableau d'analyse de variance
Source
SCR
ddl
CM
Explique 121,03183
3
40,3439
Rsiduelle
13,58067
24
0,5659
Totale
134,61250
27
4,9856
R
R ajust
R ajust
r(y,y^)
0,89911
0,88650
0,94822
0,948
Un R assez lev (avoisine la valeur 1) laisse penser que le modle est plutt bon. En construisant le
, nous constatons effectivement que les points sont plutt bien aligns sur la
graphique croisant Y et Y
premire bissectrice.
Y observ et Y calcul par le modle
(consommation des vhicules)
8.1.4.
Le test de significativit globale consiste vrifier si le modle, pris dans sa globalit, est pertinent.
L'hypothse nulle correspond la situation o aucune des exognes n'emmne de l'information utile
dans l'explication de Y cest dire le modle ne sert rien. Le test s'crit :
Une autre manire dexprimer d'exprimer le test consiste poser la question : est-ce que le R2 est
significativement suprieur 0 ?
Sous H0, F suit une loi de Fisher F(p, np1). Au risque , la rgion critique (rejet de H0) du test
correspond aux valeurs exceptionnellement grandes de F :
Par ailleurs, on constate que cette valeur est fournie directement par DROITEREG (tableau des calculs
ci-dessus).
Nous comparons la valeur de F avec le quantile dordre 0,95 pour un test 5% (3,24, savoir25 :
F,(3, 24) = 3,00879.
Nous constatons que nous sommes dans la rgion critique. Au risque 5%, nous concluons que le
modle est globalement significatif : la cylindre, la puissance et poids, pris dans leur globalit,
emmnent de linformation pertinente sur la consommation.
En passant par le calcul de la probabilit critique, nous aurions obtenu
'=LOI.F(71,2965;3 ;24)=0,000000000004, largement infrieure = 5%. La conclusion est
cohrente.
8.2. Test de signification d'un coefficient
8.2.1. Dfinition du test
Aprs avoir tabli la significativit globale de la rgression, nous devons valuer la pertinence des
variables prises individuellement. La dmarche est analogue celle dfinie pour la rgression simple.
Toujours parce que e N(0, se ), on montre que :
t(n p 1)
A partir de l, nous pouvons dfinir les tests de significativit des coefficients et les intervalles de
confiance.
Le test consiste opposer :
Le retrait de la variable Xj de la rgression est possible si l'hypothse nulle est vraie. Par rapport aux
autres variables, la contribution de Xj dans l'explication de Y n'est pas significative. Toutefois, des
problmes de colinarit peuvent parfois perturber les rsultats. Nous en reparlerons lors du traitement
du fichier "Consommation de vhicules".
La statistique de test s'crit :
8.2.2.
R
F
SCE
t-calcul
ddl
DROITEREG
poids
puissance cylindree
Constante
0,00423
0,01825
0,00049
1,7020
0,00094
0,01424
0,00078
0,63205
0,89911
0,75224
#N/A
#N/A
71,29651
24,00000
#N/A
#N/A
121,03183
13,58067
#N/A
#N/A
SCR
Test de significativit des coefficients
4,51838
1,28161
0,63304
2,6929
24
24
24
24
t-thorique
2,06390
2,06390
2,06390
2,0639
p-value
0,00014
0,21222
0,53269
0,0127
Dans le tableau ci-dessus, la statistique et les p-values de test ont t calcules pour chaque variable :
Pour un risque = 5%, le seuil critique est gal t1-5%/2(24) = LOI.STUDENT.INVERSE(5% ;24)= 2,06390.
Nous constatons que seul le coefficient a3 associ (X3 - Poids) est significatif, puisque t = 4,51838|
> t0,975 = 2,06390.
Nous constatons que ni cylindre , ni puissance en revanche ne semblent par expliquer
significativement la consommation des vhicules. Ce rsultat parait trange pour les spcialistes de ce
domaine. Cet aspect sexplique simplement par la forte corrlation entre les variables cylindre et
puissance. En effet, le coefficient de corrlation entre ces deux variables est gal 0,94755. Les deux
variables se neutralisent dans la rgression. Cest le problme de colinarit. Cet aspect sera dvelopp
dans la suite de ce support.
9. Infrence sur les coefficients
9.1. Intervalle de confiance
La distribution de a trouv ci-dessus est valable quel que soit le voisinage. Nous pouvons dfinir
facilement un intervalle de confiance des coefficients au niveau de confiance (1-) avec :
Le tableau suivant donne cet intervalle pour les variables explicatives en utilisant la fonction
DROITEREG du logiciel EXCEL et en procdant des calculs intermdiaires.
Page | 73
0,00230
0,00616
-0,01114
0,04764
-0,00112
0,00210
0,39756
3,00654
10.
Prdiction ponctuelle et par intervalle
10.1. Prdiction ponctuelle
Comme pour la rgression linaire simple, il s'agit, pour un nouvel individu i, de fournir une
prdiction de la valeur de l'endogne y partir de sa description cest dire les valeurs prises par les
exognes (xi,1, . . . , xi,p).
La prdiction ponctuelle est obtenue en appliquant les coefficients estims sur la description de
l'individu traiter.
O Xi* est un vecteur ligne de dimension (1, p+1) : Xi* = (1 ; x Xi*,1, , Xi*,p). La premire valeur 1
permet de prendre en compte la constante a. Le rsultat est bien un scalaire puisque a est de
dimension (p + 1, 1).
On peut montre que la prdiction ponctuelle est sans biais. Pour ce faire, intressons nous l'erreur de
prdiction e .
Page | 74
L'analogie avec la rgression simple est totale. Le ratio erreur/cart-type est distribu selon une loi de
Student (n-p-1) degrs de libert :
t(n-p-1)
On en dduit l'intervalle de confiance au niveau de confiance (1 ) :
const
1
constante
cylindre
puissance
poids
(X'X)^-1
constante
cylindre
puissance
poids
Levier
cylindre
1984
puissance
85
1,70205
0,00049
0,01825
0,00423
constante
0,706
0,000
0,006
-0,001
Poids
1155
p.ponctuelle
9,12
cylindre
0,000
0,000
0,000
0,000
puissance
0,006
0,000
0,000
0,000
poids
-0,001
0,000
0,000
0,000
0,05910
0,56586
0,59931
t_0.95 (24)
b.basse
b.haute
2,06390
7,52
10,71
Page | 75
Clibataire
Mari(e)
Veuf(ve)
Divorc(e)
Nous crons quatre variables factices qui contiennent linformation concernant ltat matrimonial
du rpondant :
Variables factices
Emat_clibataire
Emat_mari
Emat_veuf
Emat_divorc
Code
1 si clibataires
0 autrement
1 si maris(e)
0 autrement
1 si veufs(ves)
0 autrement
1 si divorcs(es)
0 autrement
Les clibataires seront cods 1 pour la variable Emat_Clibataire et 0 pour les autres variables
factices. Les maris(e) seront cods 1 seulement pour la variable Emat_mari et 0 pour les autres
variables. Les veufs(ves) seront cods 1 seulement pour la variable Emat_veuf et 0 pour les autres
variables. Les divorcs(es) seront cods 1 seulement pour la variable Emat_divorc et 0 pour les
autres variables.
12. Points aberrants et points influents
12.1. Dtection
Le diagnostic au regard des observations vise dterminer si certaines observations prsentent des
valeurs extrmes. Fondamentalement, on peut sy intresser selon trois aspects. Le premier est associ
aux valeurs extrmes de la diffrence entre les valeurs relles et prdites de la variable dpendante : il
sagit alors dindices de distance. Le second implique les variables indpendantes et a pour objectif de
vrifier si lensemble des variables indpendantes sloigne de manire importante de la moyenne de
chacune delle : il sagit maintenant de la force de levier. Enfin, on peut combiner ces deux aspects :
on parlera alors dun indice dinfluence de chacune des observations.
En rgression linaire, il existe des mthodes qui permettent de dtecter les valeurs aberrantes, cest
dire les donnes qui sloignent fortement de la droite de rgression, et les valeurs influentes, cest
dire celles qui apportent une forte contribution dans le calcul de la droite de rgression. Ces mthodes
sont souvent runies sous le nom de diagnostics .
Page | 76
L'objectif de la dtection des points aberrants et influents est de reprer des points qui jouent un rle
anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal ce
qui suit :
- L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection
univarie car nous tudions les variables individuellement.
- Une combinaison de valeurs chez les exognes est inhabituelle.
- L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la
relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev.
- L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus
(prdiction, coefficient, ...) sont trs diffrents selon que nous l'intgrons ou non dans la rgression.
Pour illustrer cet aspect, nous utiliserons les donnes relatives la consommation des vhicules mais
avec p= 4 variables explicatives : le prix, la cylindre, la puissance et le poids. Nous disposons de
n=31 observations.
12.1.1. Dtection univarie
L'outil le plus simple pour se faire une ide de la distribution d'une variable continue est la bote
moustaches, dite box-plot. Elle offre une vue synthtique sur plusieurs indicateurs importants : le
premier quartile (Q1), la mdiane (Me) et le troisime quartile (Q3). On peut aussi comprendre
visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3 - Q1).
On pense tort que les extrmits de la bote correspondent aux valeurs minimales et maximales. En
ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs
aberrantes sont dfinies par les rgles suivantes :
LIF = Q 1,5 x IQ
UIF = Q + 1,5 x IQ
Les points situs au del de ces limites sont souvent juges atypiques. Il convient de se pencher
attentivement sur les observations correspondantes.
Application sur les donnes consommation des vhicules
Pour la variable endogne (Figure suivante), nous dtectons immdiatement 2 observations suspectes
qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et la Mercedes S 600.
Figure. Boxplot de la variable endogne "consommation (y)"
2 observations se dmarquent
Page | 77
Le rsultat de cet exercice sur toutes les variables est donn par le tableau suivant :
Dtection univarie des points atypiques pour chaque variable
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Type de vhicule
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Ferrari 456 GT
Mercedes S 600
Maserati Ghibli GT
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Mitsubishi Galant
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut
Prix
11 600
12 490
10 450
17 140
14 825
13 730
19 490
285 000
183 900
92 500
25 000
22 350
36 600
22 500
31 580
28 750
22 600
20 300
19 900
39 800
19 740
38 990
50 800
36 200
31 990
47 700
36 950
26 950
36 400
50 900
49 300
Cylindre
846
993
899
1 390
1 195
658
1 331
5 474
5 987
2 789
1 597
1 761
2 165
1 983
1 984
1 998
1 580
1 390
1 396
2 435
1 242
2 972
2 958
2 497
1 998
2 496
1 998
1 997
1 984
2 438
2 473
Q1
Q3
IQ
19 820,0
39 395,0
19 575,0
1 390,0
2 455,5
1 065,5
LIF
UIF
9 542,5
68 757,5
208,3
4 053,8
Puissance
32
39
29
44
33
32
55
325
300
209
74
74
101
85
85
89
65
54
66
106
55
107
150
122
66
125
89
92
85
97
125
Poids
650
790
730
955
895
740
1 010
1 690
2 250
1 485
1 080
1 100
1 500
1 075
1 155
1 140
1 080
1 110
1 140
1 370
940
1 400
1 550
1 330
1 300
1 670
1 560
1 240
1 635
1 800
1 570
55,0
106,5
51,5
1 042,5
1 525,0
482,5
7,3
11,7
4,4
22,3
183,8
318,8
2 248,8
0,7
18,3
5,7
5,8
6,1
6,5
6,8
6,8
7,1
21,3
18,7
14,5
7,4
9
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7
La dtection univarie donne dj des informations intressantes. Mais elle prsente le dfaut de ne
pas tenir compte des interactions entre les variables. Dans cette section, nous tudions un outil capital
pour l'tude des points aberrants et influents : la force du levier.
Son interprtation est relativement simple. Il indique, pour l'observation i, la distance avec le centre de
gravit du nuage de points dans l'espace dfini par les exognes. La prise en compte de la
configuration des points dans l'espace de reprsentation permet de mieux juger de l'loignement d'une
observation par rapport aux autres.
Page | 78
Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H, dite Hat Matrix
(matrice chapeau), dfinie de la manire suivante : H = X(X X)X .
Elle provient en fait de la formule matricielle de base pour calculer les coefficients de rgression.
y = X a = X(X X)X y = Hy
La matrice H joue un rle trs important dans la rgression, elle permet de passer des valeurs
observes de Y vers les valeurs prdites
Y, elle permet aussi le passage de l'erreur thorique vers les
Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments
de la diagonale principale hii, on parle de levier car il dtermine l'influence de l'observation i sur les
estimateurs obtenus par les moindres carrs. Mme s'il n'utilise que les informations en provenance des
exognes Xj, le champ d'action du levier dpasse la dtection multivarie des points aberrants. Nous le
retrouverons dans la grande majorit des formules de dtection des points aberrants et influents que
nous prsenterons dans la suite de ce paragraphe.
Concernant le calcul des lments de la matrice H(n,n), il est possible d'en calculer uniquement les
lments diagonaux en utilisant la formule suivante :
h = h = X(XX) X ; o xi reprsente la ime ligne de la matrice X.
En effet, puisque les matrices H et H2 sont gales, nous avons en particulier hii = (H2)ii. Cela scrit, en
utilisant la symtrie de H : h = hh = h+ h h(1 h) = h
Puisque la quantit h
est positive, alors h(1 h) 0 0 hii 1.
()
que 3 points se dmarquent immdiatement26, les mmes que pour la dtection univarie : la Ferrari (h8
= 0,869), la Mercedes (h9 = 0,484) et la Maserati (h10 = 0,642).
26
Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines (Mercedes) ou des vhicules
sportifs (Ferrari, Maserati).
Page | 79
i
8
10
9
30
22
29
27
23
6
1
26
24
25
3
14
5
2
31
4
13
16
21
19
18
20
7
28
12
15
11
17
Type de vhicule
Cste
Ferrari 456 GT
1
Maserati Ghibli GT
1
Mercedes S 600
1
Toyota Previa salon
1
Hyundai Sonata 3000
1
Seat Alhambra 2.0
1
Peugeot 806 2.0
1
Lancia K 3.0 LS
1
Subaru Vivio 4WD
1
Daihatsu Cuore
1
Opel Omega 2.5i V6
1
Mazda Hachtback V
1
Mitsubishi Galant
1
Fiat Panda Mambo L
1
Seat Ibiza 2.0 GTI
1
Opel Corsa 1.2i Eco
1
Suzuki Swift 1.0 GLS
1
Volvo 960 Kombi aut
1
VW Polo 1.4 60
1
Renault Safrane 2.2. V
1
Citroen ZX Volcane
1
Ford Fiesta 1.2 Zetec
1
Honda Civic Joker 1.4
1
Fort Escort 1.4i PT
1
Volvo 850 2.5
1
Toyota Corolla
1
Nissan Primera 2.0
1
Peugeot 306 XS 108
1
VW Golt 2.0 GTI
1
Opel Astra 1.6i 16V
1
Fiat Tempra 1.6 Liberty
1
Prix
285 000
92 500
183 900
50 900
38 990
36 400
36 950
50 800
13 730
11 600
47 700
36 200
31 990
10 450
22 500
14 825
12 490
49 300
17 140
36 600
28 750
19 740
19 900
20 300
39 800
19 490
26 950
22 350
31 580
25 000
22 600
Cylindre Puissance
5 474
325
2 789
209
5 987
300
2 438
97
2 972
107
1 984
85
1 998
89
2 958
150
658
32
846
32
2 496
125
2 497
122
1 998
66
899
29
1 983
85
1 195
33
993
39
2 473
125
1 390
44
2 165
101
1 998
89
1 242
55
1 396
66
1 390
54
2 435
106
1 331
55
1 997
92
1 761
74
1 984
85
1 597
74
1 580
65
Poids
1 690
1 485
2 250
1 800
1 400
1 635
1 560
1 550
740
650
1 670
1 330
1 300
730
1 075
895
790
1 570
955
1 500
1 140
940
1 140
1 110
1 370
1 010
1 240
1 100
1 155
1 080
1 080
=2
(4 + 1)
31
= 0,323
Y Rsidus Levier
21,3
0,610 0,869
14,5
0,149 0,642
18,7
-1,374 0,484
12,8
0,611 0,315
11,7
1,436 0,275
11,6
0,466 0,226
10,8
-0,126 0,152
11,9
-0,311 0,150
6,8
0,514 0,143
5,7
-0,074 0,140
11,3
-0,953 0,128
10,8
0,272 0,123
7,6
-1,568 0,114
6,1
0,118 0,113
9,5
0,980 0,105
6,8
0,091 0,101
5,8
-0,676 0,092
12,7
0,819 0,087
6,5
-0,684 0,081
11,7
0,815 0,077
8,8
-0,211 0,062
6,6
-0,923 0,062
7,7
-0,857 0,060
8,6
0,457 0,058
10,8
0,401 0,058
7,1
-0,665 0,051
9,2
-0,266 0,051
9
0,543 0,049
9,5
0,462 0,048
7,4
-1,110 0,044
9,3
1,055 0,041
devons donc normaliser le rsidu par son cart-type pour rendre les carts comparables dune
observation lautre.
Lorsque nous travaillons sur un chantillon, nous ne disposons pas de la vraie valeur de se , nous
estimons la variance des rsidus avec : s
e = s
e (1 h) ; o hi est lue dans la matrice H,
e
s
e =
est lestimateur de la variance de lerreur.
s
e
s
e ()
Rgion critique
Pour dcider du statut d'un point, il nous faut dfinir une valeur seuil au del de laquelle le rsidu
standardis est anormalement lev (en valeur absolue).
Par hypothse, nous avons e N(0, se ), nous dduisons que e N(0, se). Donc, s
e suit une loi du
(n-p-1) degrs de libert.
Le rsidu standardis, dfini par le rapport entre une loi normale et la racine carr dune loi du
normalise, suit une loi de student (n-p-1) degrs de libert : ti t (n-p-1).
Page | 80
Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (aberrante)
lorsque : . : |t | > t a (n p 1), o t a (n p 1) est le fractile dordre 1-/2 de la loi de
Student (n-p-1) degrs de libert. Il sagit bien dun test bilatral. Le rsidu est suspect sil est
particulirement lev en valeur absolue.
En rsum, un point apparat comme aberrant avec un rsidu standardis lev si :
9
22
8
25
11
17
14
26
21
19
31
13
30
4
2
7
12
6
29
15
18
20
23
24
28
10
16
27
3
5
1
Type de vhicule
Mercedes S 600
Hyundai Sonata 3000
Ferrari 456 GT
Mitsubishi Galant
Opel Astra 1.6i 16V
Fiat Tempra 1.6 Liberty
Seat Ibiza 2.0 GTI
Opel Omega 2.5i V6
Ford Fiesta 1.2 Zetec
Honda Civic Joker 1.4
Volvo 960 Kombi aut
Renault Safrane 2.2. V
Toyota Previa salon
VW Polo 1.4 60
Suzuki Swift 1.0 GLS
Toyota Corolla
Peugeot 306 XS 108
Subaru Vivio 4WD
Seat Alhambra 2.0
VW Golt 2.0 GTI
Fort Escort 1.4i PT
Volvo 850 2.5
Lancia K 3.0 LS
Mazda Hachtback V
Nissan Primera 2.0
Maserati Ghibli GT
Citroen ZX Volcane
Peugeot 806 2.0
Fiat Panda Mambo L
Opel Corsa 1.2i Eco
Daihatsu Cuore
Cste
Prix
1 183 900
1 38 990
1 285 000
1 31 990
1 25 000
1 22 600
1 22 500
1 47 700
1 19 740
1 19 900
1 49 300
1 36 600
1 50 900
1 17 140
1 12 490
1 19 490
1 22 350
1 13 730
1 36 400
1 31 580
1 20 300
1 39 800
1 50 800
1 36 200
1 26 950
1 92 500
1 28 750
1 36 950
1 10 450
1 14 825
1 11 600
Cylindre Puissance
5 987
2 972
5 474
1 998
1 597
1 580
1 983
2 496
1 242
1 396
2 473
2 165
2 438
1 390
993
1 331
1 761
658
1 984
1 984
1 390
2 435
2 958
2 497
1 997
2 789
1 998
1 998
899
1 195
846
300
107
325
66
74
65
85
125
55
66
125
101
97
44
39
55
74
32
85
85
54
106
150
122
92
209
89
89
29
33
32
Poids
2 250
1 400
1 690
1 300
1 080
1 080
1 075
1 670
940
1 140
1 570
1 500
1 800
955
790
1 010
1 100
740
1 635
1 155
1 110
1 370
1 550
1 330
1 240
1 485
1 140
1 560
730
895
650
18,7
11,7
21,3
7,6
7,4
9,3
9,5
11,3
6,6
7,7
12,7
11,7
12,8
6,5
5,8
7,1
9
6,8
11,6
9,5
8,6
10,8
11,9
10,8
9,2
14,5
8,8
10,8
6,1
6,8
5,7
Seuils
2,056
Rsidus Levier
-1,374
1,436
0,610
-1,568
-1,110
1,055
0,980
-0,953
-0,923
-0,857
0,819
0,815
0,611
-0,684
-0,676
-0,665
0,543
0,514
0,466
0,462
0,457
0,401
-0,311
0,272
-0,266
0,149
-0,211
-0,126
0,118
0,091
-0,074
0,484
0,275
0,869
0,114
0,044
0,041
0,105
0,128
0,062
0,060
0,087
0,077
0,315
0,081
0,092
0,051
0,049
0,143
0,226
0,048
0,058
0,058
0,150
0,123
0,051
0,642
0,062
0,152
0,113
0,101
0,140
Rsidus
Studentiss
2,3416
2,0632
2,0574
2,0375
1,3896
1,3185
1,2672
1,2491
1,1666
1,0810
1,0479
1,0379
0,9040
0,8725
0,8679
0,8354
0,6807
0,6794
0,6487
0,5793
0,5762
0,5049
0,4128
0,3549
0,3335
0,3039
0,2663
0,1670
0,1537
0,1170
0,0975
Aussi, il est plus pratique de construire un graphique des rsidus en mettant en abscisse l'endogne et
en ordonne le rsidu standardis. Nous traons alors une ligne matrialisant les valeurs seuils
-t0,975(26) et + t0,975(26).
Graphique. Rpartition des rsidus studentiss
selon lendogne
Page | 81
Les calculs aboutissent des rsultats contrasts, correspondant des situations trs diffrentes.
- La Mercedes cumule un rsidu fort (-1,374) et un levier lev (0,484). Ce type de vhicule appartient
une catgorie spcifique qui n'a rien en commun avec les voitures recenss dans ce fichier.
- La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs diffrente des autres (h = 0,869). Le
rsidu brut e = 0,610 n'est pas trs lev, on prdit correctement sa consommation au regard de ses
caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un vhicule
bien particulier.
- La Hyundai Sonata 3000 est devenue, selon cette approche, un vhicule particulier (point aberrant).
Malgr quelle a un levier au dessous du seuil (0,275), son rsidu rapport l'cart-type dpasse un
petit peu le seuil fix.
- Avec un rsidu studentis qui galise la valeur 0,304, la Maserati Ghibli GT nest plus considre
comme vhicule particulier mme si on augmente le risque (10% par exemple).
12.1.4. Rsidus studentiss supprims
Le rsidu standardis est un indicateur certes intressant mais il prsente un inconvnient fort : nous
valuons l'importance du rsidu e d'une observation qui a particip la construction de la droite de
rgression. De fait, le point est juge et partie dans l'valuation : on l'utilise pour construire le modle,
puis on regarde s'il a bien t modlis. Si l'observation est fortement influente, au sens qu'elle "tire"
exagrment les rsultats de manire prsenter un rsidu brut trs faible e@ 0 , nous conclurons
tort qu'elle est bien reconstitue et donc ne fausse en rien les rsultats de la modlisation.
Il faudrait mettre en place une procdure qui permet de confronter les rsultats selon qu'une
observation participe ou non aux calculs. Parmi les pistes possibles, nous nous penchons sur l'erreur de
prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du
modle utilis pour prdire la valeur y. Le rsidu studentis, on parle de rsidu studentis externe ou
rsidu studentis supprim pour SPSS ou certains ouvrages, s'appuie sur ce principe. Le rsidu
studentis supprim utilise la procdure suivante :
Pour chaque observation i :
- Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.
- Nous effectuons la prdiction sur l'observation i en donne supplmentaire y(i).
Page | 82
()
s
e ()()(
Rgion critique
A partir de la formulation sous forme d'quation de rgression, il est possible d'crire rigoureusement
le test d'hypothses permettant de dterminer si une observation est aberrante/influente ou non. On
oppose :
H : b = 0
H: b 0
Student (n-p-2) degrs de libert. Il sagit bien dun test bilatral. Le rsidu est suspect sil est
particulirement lev en valeur absolue.
Nous pouvons trier, par ordre dcroissant, les donnes de ce tableau selon |t |. Les vhicules suspects
sont trs facilement mis en vidence.
Observations tries selon la valeur
absolue des rsidus studentiss supprims
0,323
i
Type de vhicule
9
22
8
25
11
17
14
26
21
19
31
13
30
4
2
7
12
6
29
15
18
20
23
24
28
10
16
27
3
5
1
Mercedes S 600
Hyundai Sonata 3000
Ferrari 456 GT
Mitsubishi Galant
Opel Astra 1.6i 16V
Fiat Tempra 1.6 Liberty
Seat Ibiza 2.0 GTI
Opel Omega 2.5i V6
Ford Fiesta 1.2 Zetec
Honda Civic Joker 1.4
Volvo 960 Kombi aut
Renault Safrane 2.2. V
Toyota Previa salon
VW Polo 1.4 60
Suzuki Swift 1.0 GLS
Toyota Corolla
Peugeot 306 XS 108
Subaru Vivio 4WD
Seat Alhambra 2.0
VW Golt 2.0 GTI
Fort Escort 1.4i PT
Volvo 850 2.5
Lancia K 3.0 LS
Mazda Hachtback V
Nissan Primera 2.0
Maserati Ghibli GT
Citroen ZX Volcane
Peugeot 806 2.0
Fiat Panda Mambo L
Opel Corsa 1.2i Eco
Daihatsu Cuore
Rsidus Levier
-1,374
1,436
0,610
-1,568
-1,110
1,055
0,980
-0,953
-0,923
-0,857
0,819
0,815
0,611
-0,684
-0,676
-0,665
0,543
0,514
0,466
0,462
0,457
0,401
-0,311
0,272
-0,266
0,149
-0,211
-0,126
0,118
0,091
-0,074
Seuils
2,056
2,060
Rsidus
R_Stud_Supp
Studentiss
0,484
0,275
0,869
0,114
0,044
0,041
0,105
0,128
0,062
0,060
0,087
0,077
0,315
0,081
0,092
0,051
0,049
0,143
0,226
0,048
0,058
0,058
0,150
0,123
0,051
0,642
0,062
0,152
0,113
0,101
0,140
2,3416
2,0632
2,0574
2,0375
1,3896
1,3185
1,2672
1,2491
1,1666
1,0810
1,0479
1,0379
0,9040
0,8725
0,8679
0,8354
0,6807
0,6794
0,6487
0,5793
0,5762
0,5049
0,4128
0,3549
0,3335
0,3039
0,2663
0,1670
0,1537
0,1170
0,0975
2,5848
2,2123
2,2049
2,1795
1,4162
1,3384
1,2829
1,2634
1,1751
1,0847
1,0500
1,0395
0,9007
0,8684
0,8636
0,8304
0,6735
0,6722
0,6414
0,5717
0,5687
0,4975
0,4062
0,3488
0,3277
0,2985
0,2615
0,1638
0,1508
0,1148
0,0956
Nous constatons que ce sont les mmes points que prcdemment qui se dmarquent (Mercedes S600,
Hyundai Sonata 3000, Ferrari 456 GT), avec ajout dun autre vhicule : il sagit de la Mitsubishi
Galant.
12.1.5. Autres indicateurs usuels
D'autres indicateurs de points aberrants/influents sont couramment rencontrs dans les logiciels
statistiques. Dans la suite de ce paragraphe, nous allons les numrer en mettant l'accent sur 3 aspects :
le principe, la formule et la rgle de dtection.
DFFITS
Le DFFITS s'appuie sur le mme principe que le rsidu studentis supprim, mais il compare cette
fois-ci la prdiction en resubstitutiant
et la prdiction en donne supplmentaire
(). Dans le
premier cas, l'observation a particip la construction du modle de prdiction, dans le second, non.
Nous pouvons ainsi mesurer l'influence du point sur la rgression.
Le DFFITS est normalise de la manire suivante : DFFITS =
()
s
e ()
Nous considrons une observation est aberrante lorsque : R.C : |DFFITS| > 2
.
Page | 84
Il n'est heureusement pas ncessaire d'effectuer les n rgressions pour calculer les DFFITSi, on peut
Aprs avoir fait le calcule, et pour mettre en vidence les ponts suspects, il faut trier par ordre
dcroissant les observations selon |DFFITS|.
Observations tries selon la valeur
absolue des DFFITS
0,323
i
8
9
22
25
30
26
14
10
29
31
11
21
13
17
2
6
19
4
7
23
12
18
24
15
20
28
27
16
3
1
5
Type de vhicule
Rsidus Levier
Ferrari 456 GT
Mercedes S 600
Hyundai Sonata 3000
Mitsubishi Galant
Toyota Previa salon
Opel Omega 2.5i V6
Seat Ibiza 2.0 GTI
Maserati Ghibli GT
Seat Alhambra 2.0
Volvo 960 Kombi aut
Opel Astra 1.6i 16V
Ford Fiesta 1.2 Zetec
Renault Safrane 2.2. V
Fiat Tempra 1.6 Liberty
Suzuki Swift 1.0 GLS
Subaru Vivio 4WD
Honda Civic Joker 1.4
VW Polo 1.4 60
Toyota Corolla
Lancia K 3.0 LS
Peugeot 306 XS 108
Fort Escort 1.4i PT
Mazda Hachtback V
VW Golt 2.0 GTI
Volvo 850 2.5
Nissan Primera 2.0
Peugeot 806 2.0
Citroen ZX Volcane
Fiat Panda Mambo L
Daihatsu Cuore
Opel Corsa 1.2i Eco
0,610
-1,374
1,436
-1,568
0,611
-0,953
0,980
0,149
0,466
0,819
-1,110
-0,923
0,815
1,055
-0,676
0,514
-0,857
-0,684
-0,665
-0,311
0,543
0,457
0,272
0,462
0,401
-0,266
-0,126
-0,211
0,118
-0,074
0,091
0,869
0,484
0,275
0,114
0,315
0,128
0,105
0,642
0,226
0,087
0,044
0,062
0,077
0,041
0,092
0,143
0,060
0,081
0,051
0,150
0,049
0,058
0,123
0,048
0,058
0,051
0,152
0,062
0,113
0,140
0,101
2,056
Seuils
2,060
Rsidus
R_Stud_Supp
Studentiss
2,0574
2,3416
2,0632
2,0375
0,9040
1,2491
1,2672
0,3039
0,6487
1,0479
1,3896
1,1666
1,0379
1,3185
0,8679
0,6794
1,0810
0,8725
0,8354
0,4128
0,6807
0,5762
0,3549
0,5793
0,5049
0,3335
0,1670
0,2663
0,1537
0,0975
0,1170
0,803
DFFITS
2,2049
2,5848
2,2123
2,1795
0,9007
1,2634
1,2829
0,2985
0,6414
1,0500
1,4162
1,1751
1,0395
1,3384
0,8636
0,6722
1,0847
0,8684
0,8304
0,4062
0,6735
0,5687
0,3488
0,5717
0,4975
0,3277
0,1638
0,2615
0,1508
0,0956
0,1148
5,6685
2,5048
1,3611
0,7800
0,6114
0,4837
0,4393
0,3996
0,3464
0,3232
0,3037
0,3023
0,3010
0,2778
0,2746
0,2743
0,2741
0,2576
0,1935
0,1709
0,1523
0,1412
0,1308
0,1278
0,1234
0,0756
0,0694
0,0674
0,0538
0,0385
0,0385
()]
s
e ()
Il nous faut dfinir la valeur seuil partir de laquelle nous pouvons dire que le point est aberrant.
La rgle la suivante : R.C : D >
Page | 85
De nouveau, il n'est pas question d'effectuer les n rgressions en supprimant tour tour chaque
observation. Nous pouvons grandement simplifier les calculs en drivant la distance de Cook partir
des rsidus standardiss : D =
() ()
8
9
22
25
30
26
14
10
29
31
11
21
13
17
2
6
19
4
7
23
12
18
24
15
20
28
27
16
3
1
5
Ferrari 456 GT
Mercedes S 600
Hyundai Sonata 3000
Mitsubishi Galant
Toyota Previa salon
Opel Omega 2.5i V6
Seat Ibiza 2.0 GTI
Maserati Ghibli GT
Seat Alhambra 2.0
Volvo 960 Kombi aut
Opel Astra 1.6i 16V
Ford Fiesta 1.2 Zetec
Renault Safrane 2.2. V
Fiat Tempra 1.6 Liberty
Suzuki Swift 1.0 GLS
Subaru Vivio 4WD
Honda Civic Joker 1.4
VW Polo 1.4 60
Toyota Corolla
Lancia K 3.0 LS
Peugeot 306 XS 108
Fort Escort 1.4i PT
Mazda Hachtback V
VW Golt 2.0 GTI
Volvo 850 2.5
Nissan Primera 2.0
Peugeot 806 2.0
Citroen ZX Volcane
Fiat Panda Mambo L
Daihatsu Cuore
Opel Corsa 1.2i Eco
Seuils
2,060
0,803
0,154
Rsidus R_Stud_Sup
Rsidus Levier
DFFITS D Cook
Studentiss
p
Type de vhicule
2,056
0,610
-1,374
1,436
-1,568
0,611
-0,953
0,980
0,149
0,466
0,819
-1,110
-0,923
0,815
1,055
-0,676
0,514
-0,857
-0,684
-0,665
-0,311
0,543
0,457
0,272
0,462
0,401
-0,266
-0,126
-0,211
0,118
-0,074
0,091
0,869
0,484
0,275
0,114
0,315
0,128
0,105
0,642
0,226
0,087
0,044
0,062
0,077
0,041
0,092
0,143
0,060
0,081
0,051
0,150
0,049
0,058
0,123
0,048
0,058
0,051
0,152
0,062
0,113
0,140
0,101
2,0574
2,3416
2,0632
2,0375
0,9040
1,2491
1,2672
0,3039
0,6487
1,0479
1,3896
1,1666
1,0379
1,3185
0,8679
0,6794
1,0810
0,8725
0,8354
0,4128
0,6807
0,5762
0,3549
0,5793
0,5049
0,3335
0,1670
0,2663
0,1537
0,0975
0,1170
2,2049
2,5848
2,2123
2,1795
0,9007
1,2634
1,2829
0,2985
0,6414
1,0500
1,4162
1,1751
1,0395
1,3384
0,8636
0,6722
1,0847
0,8684
0,8304
0,4062
0,6735
0,5687
0,3488
0,5717
0,4975
0,3277
0,1638
0,2615
0,1508
0,0956
0,1148
5,6685
2,5048
1,3611
0,7800
0,6114
0,4837
0,4393
0,3996
0,3464
0,3232
0,3037
0,3023
0,3010
0,2778
0,2746
0,2743
0,2741
0,2576
0,1935
0,1709
0,1523
0,1412
0,1308
0,1278
0,1234
0,0756
0,0694
0,0674
0,0538
0,0385
0,0385
5,5954
1,0298
0,3223
0,1064
0,0753
0,0457
0,0377
0,0331
0,0245
0,0208
0,0178
0,0180
0,0181
0,0150
0,0152
0,0154
0,0149
0,0134
0,0076
0,0060
0,0047
0,0041
0,0035
0,0034
0,0031
0,0012
0,0010
0,0009
0,0006
0,0003
0,0003
vhicules suivant se dmarquent toujours : la Ferrari 456 GT (tout particulirement), la Mercedes S600
et la Hyundai Sonata 3000.
DFBETAS
Nous avons dfinis la distance de Cook comme un cart entre les prdictions. Si l'cart est important,
on peut approfondir l'analyse en essayant d'identifier la variable qui est l'origine de l'cart : c'est le
rle des DFBETAS.
Pour chaque observation i et pour chaque coefficient aj , j = 0; ; p, nous calculons la quantit :
DFBETAS, =
)(
s
e ()()
Page | 86
rgression sans l'observation i ; (XX) est lue sur la diagonale principale de la matrice (XX)-1.
On considre que l'observation i pse indment sur la variable Xj lorsque :
R.C : |DFBETAS,| >
Encore une fois, il est hors de question d'effectuer n rgressions, on s'en sort en utilisant la formule
suivante : DFBETAS, =
t
.
(
(
)
Appliqu sur les donnes relatives la consommation des vhicules, les DFBETAS nous permettent de
dtecter les points aberrants. On compare les valeurs calcules avec le seuil
= 0,359.
Nous constatons que la Ferrari 456 GT et la Mercedes S 600 psent sur quasiment toutes les variables
ds lors qu'on les retire ou qu'on les rajoute dans les effectifs pour la rgression. La Hyundai Sonata
3000 a aussi une action sur l'ensemble des coefficients mis part la constante. Enfin, la Maserati
Ghibli GT, la Mitsubishi Galant et la Toyota Previa salon agissent de manire ngligeable sur
quelques coefficients (Tableau ci-dessous).
Observations selon la valeur des DFBETAS
Seuil = 0,3592
DFBETASi
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Type de vhicule
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Ferrari 456 GT
Mercedes S 600
Maserati Ghibli GT
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Mitsubishi Galant
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut
Cste
Prix
-0,0361
-0,2353
0,0455
-0,1418
0,0210
0,1934
-0,1104
1,0398
0,8261
0,0431
-0,1770
0,0808
-0,1474
0,2318
0,0592
-0,0334
0,1436
0,0295
-0,0568
-0,0050
-0,2189
-0,0042
0,0198
0,0222
0,1202
0,2891
0,0387
-0,0171
-0,2082
-0,4118
-0,1496
-0,0033
-0,0343
0,0118
-0,0606
0,0151
0,0978
-0,0439
3,4167
0,4977
-0,1451
0,0542
-0,0582
0,0098
-0,2902
-0,0444
0,0392
0,0067
0,0637
-0,0362
-0,0552
-0,0407
-0,5261
0,1351
-0,1092
-0,3202
0,0214
-0,0284
0,0451
0,1634
0,3243
-0,0511
|DFBETASi|
Cylindre Puissance
-0,0017
0,0130
0,0047
-0,1082
0,0121
-0,1274
0,0311
-0,5185
-1,3736
-0,2710
0,0519
0,0515
-0,1119
0,2307
0,0578
-0,0264
0,0275
-0,0294
0,1620
0,0623
0,0701
1,2382
-0,0227
0,0333
-0,3484
0,2247
0,0312
-0,0072
-0,1469
-0,1109
-0,1392
0,0000
0,0014
-0,0102
0,1393
-0,0226
0,0328
0,0172
-0,8377
0,3672
0,3734
-0,0883
0,0068
0,0256
0,0817
-0,0064
-0,0143
-0,0373
-0,0455
-0,0719
-0,0101
-0,0304
-0,5678
-0,0938
0,0674
0,6384
-0,1193
0,0124
-0,0284
-0,0892
-0,2977
0,1143
Poids
Cste
Prix
0,0210
0,1084
-0,0222
0,0754
-0,0075
-0,0162
0,0086
-0,3261
0,4475
0,0049
0,0682
-0,0714
0,2056
-0,3221
-0,0616
0,0403
-0,0485
0,0471
-0,0954
-0,0249
0,0597
-0,6045
0,0387
-0,0615
-0,1940
-0,3439
-0,0613
0,0189
0,3176
0,5301
0,1801
0,0361
0,2353
0,0455
0,1418
0,0210
0,1934
0,1104
1,0398
0,8261
0,0431
0,1770
0,0808
0,1474
0,2318
0,0592
0,0334
0,1436
0,0295
0,0568
0,0050
0,2189
0,0042
0,0198
0,0222
0,1202
0,2891
0,0387
0,0171
0,2082
0,4118
0,1496
0,0033
0,0343
0,0118
0,0606
0,0151
0,0978
0,0439
3,4167
0,4977
0,1451
0,0542
0,0582
0,0098
0,2902
0,0444
0,0392
0,0067
0,0637
0,0362
0,0552
0,0407
0,5261
0,1351
0,1092
0,3202
0,0214
0,0284
0,0451
0,1634
0,3243
0,0511
Cylindre Puissance
0,0017
0,0130
0,0047
0,1082
0,0121
0,1274
0,0311
0,5185
1,3736
0,2710
0,0519
0,0515
0,1119
0,2307
0,0578
0,0264
0,0275
0,0294
0,1620
0,0623
0,0701
1,2382
0,0227
0,0333
0,3484
0,2247
0,0312
0,0072
0,1469
0,1109
0,1392
0,0000
0,0014
0,0102
0,1393
0,0226
0,0328
0,0172
0,8377
0,3672
0,3734
0,0883
0,0068
0,0256
0,0817
0,0064
0,0143
0,0373
0,0455
0,0719
0,0101
0,0304
0,5678
0,0938
0,0674
0,6384
0,1193
0,0124
0,0284
0,0892
0,2977
0,1143
Poids
0,0210
0,1084
0,0222
0,0754
0,0075
0,0162
0,0086
0,3261
0,4475
0,0049
0,0682
0,0714
0,2056
0,3221
0,0616
0,0403
0,0485
0,0471
0,0954
0,0249
0,0597
0,6045
0,0387
0,0615
0,1940
0,3439
0,0613
0,0189
0,3176
0,5301
0,1801
COVRATIO
Page | 87
A la diffrence de la distance de Cook, au lieu de mesurer la disparit entre les estimations des
coefficients, avec ou sans l'intervention de l'observation i, le COVRATIO mesure les disparits entre
les prcisions des estimateurs c'est--dire la variance des estimateurs.
A cet effet, il nous faut proposer une mesure de la variance globale des estimateurs, dite variance
) = s
gnralise, elle est gale : var(
e det(X X) ; o det(XX)-1 est le dterminant de la
matrice (XX)-1.
Le COVRATIOi de l'observation i est construit de la manire suivante : COVRATIO =
())
(
)
(
A partir de quel moment doit-on s'inquiter de l'influence d'une observation ? La rgle de dtection
la plus rpandue est : R.C : |COVRATIO 1| >
()
De manire pratique, les COVRATIOi peut tre calculs partir du rsidu studentis et du levier
comme suit : COVRATIO =
()
()
()
Nous avons calcul pour chaque observation i le COVRATIO pour les donnes relatives la
consommation des vhicules. Les rsultats sont consigns dans le tableau suivant. Ce tableau est tri,
par ordre dcroissant, selon |COVRATIO 1|. Nous retrouvons la Ferrari 456 GT, la Maserati Ghibli
GT et la Toyota Previa salon qui se distinguent par rapport aux autres vhicules.
Observations tries selon la valeur valeurs absolues des COVRATIO-1
Seuil = 0,3592
Seuil <
DFBETASi
i
8
10
30
29
27
25
1
23
3
24
5
22
6
16
9
28
20
18
15
12
2
4
11
7
17
31
13
19
26
14
21
Type de vhicule
Ferrari 456 GT
Maserati Ghibli GT
Toyota Previa salon
Seat Alhambra 2.0
Peugeot 806 2.0
Mitsubishi Galant
Daihatsu Cuore
Lancia K 3.0 LS
Fiat Panda Mambo L
Mazda Hachtback V
Opel Corsa 1.2i Eco
Hyundai Sonata 3000
Subaru Vivio 4WD
Citroen ZX Volcane
Mercedes S 600
Nissan Primera 2.0
Volvo 850 2.5
Fort Escort 1.4i PT
VW Golt 2.0 GTI
Peugeot 306 XS 108
Suzuki Swift 1.0 GLS
VW Polo 1.4 60
Opel Astra 1.6i 16V
Toyota Corolla
Fiat Tempra 1.6 Liberty
Volvo 960 Kombi aut
Renault Safrane 2.2. V
Honda Civic Joker 1.4
Opel Omega 2.5i V6
Seat Ibiza 2.0 GTI
Ford Fiesta 1.2 Zetec
Cste
Prix
1,0398
0,0431
-0,4118
-0,2082
0,0387
0,1202
-0,0361
0,0198
0,0455
0,0222
0,0210
-0,0042
0,1934
-0,0334
0,8261
-0,0171
-0,0050
0,0295
0,0592
0,0808
-0,2353
-0,1418
-0,1770
-0,1104
0,1436
-0,1496
-0,1474
-0,0568
0,2891
0,2318
-0,2189
3,4167
-0,1451
0,3243
0,1634
-0,0284
-0,3202
-0,0033
0,1351
0,0118
-0,1092
0,0151
-0,5261
0,0978
0,0392
0,4977
0,0451
-0,0552
0,0637
-0,0444
-0,0582
-0,0343
-0,0606
0,0542
-0,0439
0,0067
-0,0511
0,0098
-0,0362
0,0214
-0,2902
-0,0407
|DFBETASi|
Cylindre Puissance
-0,5185
-0,2710
-0,1109
-0,1469
0,0312
-0,3484
-0,0017
-0,0227
0,0047
0,0333
0,0121
1,2382
-0,1274
-0,0264
-1,3736
-0,0072
0,0623
-0,0294
0,0578
0,0515
0,0130
-0,1082
0,0519
0,0311
0,0275
-0,1392
-0,1119
0,1620
0,2247
0,2307
0,0701
-0,8377
0,3734
-0,2977
-0,0892
0,0124
0,6384
0,0000
-0,0938
-0,0102
0,0674
-0,0226
-0,5678
0,0328
-0,0143
0,3672
-0,0284
-0,0101
-0,0455
-0,0064
0,0068
0,0014
0,1393
-0,0883
0,0172
-0,0373
0,1143
0,0256
-0,0719
-0,1193
0,0817
-0,0304
Poids
Cste
Prix
-0,3261
0,0049
0,5301
0,3176
-0,0613
-0,1940
0,0210
0,0387
-0,0222
-0,0615
-0,0075
-0,6045
-0,0162
0,0403
0,4475
0,0189
-0,0249
0,0471
-0,0616
-0,0714
0,1084
0,0754
0,0682
0,0086
-0,0485
0,1801
0,2056
-0,0954
-0,3439
-0,3221
0,0597
1,0398
0,0431
0,4118
0,2082
0,0387
0,1202
0,0361
0,0198
0,0455
0,0222
0,0210
0,0042
0,1934
0,0334
0,8261
0,0171
0,0050
0,0295
0,0592
0,0808
0,2353
0,1418
0,1770
0,1104
0,1436
0,1496
0,1474
0,0568
0,2891
0,2318
0,2189
3,4167
0,1451
0,3243
0,1634
0,0284
0,3202
0,0033
0,1351
0,0118
0,1092
0,0151
0,5261
0,0978
0,0392
0,4977
0,0451
0,0552
0,0637
0,0444
0,0582
0,0343
0,0606
0,0542
0,0439
0,0067
0,0511
0,0098
0,0362
0,0214
0,2902
0,0407
Cylindre Puissance
0,5185
0,2710
0,1109
0,1469
0,0312
0,3484
0,0017
0,0227
0,0047
0,0333
0,0121
1,2382
0,1274
0,0264
1,3736
0,0072
0,0623
0,0294
0,0578
0,0515
0,0130
0,1082
0,0519
0,0311
0,0275
0,1392
0,1119
0,1620
0,2247
0,2307
0,0701
0,8377
0,3734
0,2977
0,0892
0,0124
0,6384
0,0000
0,0938
0,0102
0,0674
0,0226
0,5678
0,0328
0,0143
0,3672
0,0284
0,0101
0,0455
0,0064
0,0068
0,0014
0,1393
0,0883
0,0172
0,0373
0,1143
0,0256
0,0719
0,1193
0,0817
0,0304
Poids
0,3261
0,0049
0,5301
0,3176
0,0613
0,1940
0,0210
0,0387
0,0222
0,0615
0,0075
0,6045
0,0162
0,0403
0,4475
0,0189
0,0249
0,0471
0,0616
0,0714
0,1084
0,0754
0,0682
0,0086
0,0485
0,1801
0,2056
0,0954
0,3439
0,3221
0,0597
ou >
0,5161
1,4839
COVRATIOi
|COVRATIOi -1|
3,8078
3,3365
1,5150
1,4484
1,4271
0,5751
1,4117
1,3858
1,3655
1,3545
1,3502
0,6861
1,2977
1,2799
0,7219
1,2543
1,2294
1,2112
1,1971
1,1689
1,1565
1,1410
0,8652
1,1196
0,8978
1,0734
1,0672
1,0285
1,0237
0,9883
0,9914
2,8078
2,3365
0,5150
0,4484
0,4271
0,4249
0,4117
0,3858
0,3655
0,3545
0,3502
0,3139
0,2977
0,2799
0,2781
0,2543
0,2294
0,2112
0,1971
0,1689
0,1565
0,1410
0,1348
0,1196
0,1022
0,0734
0,0672
0,0285
0,0237
0,0117
0,0086
Page | 88
Objet
Levier
Mesure
linfluence
de
lobservation i cause des
valeurs des xi
Rsidus
Studentiss
Test de significativit du
rsidu i
Rsidus
Stud. Supp
DFFITS
D Cook
DFBETAS
COV
RATIO
Formule
Calcul pratique
hi = Xi (XX)1 X i
ti =
Rgion
Rgle de dcision
critique
2(p + 1)
2(p + 1)
hi >
n
n
(1h i )
t i =
A comparer avec rsidu
np2
yi yi (i)
t i = t i
studentis cart-type calcul en
np1t 2i
retirant lobservation i
(i)(1 hi (i)
Mesure
normalise
du
changement dans la valeur
prdite,
avec
et
sans
lobservation i
Mesure
changement
en
retirant lobservation i, sur les
estimations de lensemble des
coefficients
Mesure normalise de leffet
de
lobservation
i
sur
lestimation, pour chaque
coefficient j
Mesure
leffet
de
lobservation i sur la prcision
DFFITS =
yi yi (i)
(i)hi
Di =
i [ yi yi (i)]
2 (p + 1)
DFBETASj,i =
()
(i) (X X)1
COVRATIOi =
var(a(i))
var(a)
DFFITSi = t i
Di =
t 2i
hi
1h i
(p+1) (1h i )
t i
1
X
j,i
X X
(X X)1
j (1h i )
COVRATIOi =
|t i | > 2 alors
lobservation est un
point aberrant
(p+1)
n
hi
DFBETASj,i =
|t i |
> 2 alors
rsidu
est
significativement
0
(+)
()
()
|DFFITS| > 2
(p+1)
alors
lobservation
aberrante
Di >
np1
(np1)
lobservation
aberrante
|DFBETAS| >
3(p+1)
n
est
alors
est
2
alors lobservation
est aberrante
|COVRATIO
3(p+1)
1| >
alors
n
lobservation
est
aberrante
12.2. Traitement
Aprs avoir dtecter les observations aberrantes moyennant les indicateurs formuls et appliqus cihaut, la question qui se pose est la suivante : que peut-on faire de ces observations qui, manifestement,
jouent un rle particulier dans la rgression ?
Tous les auteurs s'accordent dire que la suppression automatique des observations atypiques n'est pas
la solution. Il faut comprendre pourquoi l'observation se dmarque autant et proposer des solutions
appropries :
- Premier rflexe : vrifier les donnes, y a-t-il des erreurs de saisie ? Dans ce cas, il suffit de corriger
les valeurs recenses.
- Il apparat que les observations dtectes ne correspondent pas la population tudie. Dans ce cas,
et dans ce cas seulement, la suppression est rellement justifie.
Dans notre exemple CONSO, il apparat clairement que la Ferrari 456 GT, voiture sportive
d'exception, et la Mercedes S 600, n'appartiennent pas au mme monde que les autres vhicules de
l'analyse. Ils se situent de plus des niveaux de prix qui les situent dfinitivement hors de porte. Il
parat donc lgitime de les supprimer de nos donnes.
Nous effectuons la rgression sur les 29 observations restantes. En tudiant de nouveau les points
aberrants, nous constaterons que des autres vhicules se dmarquent, savoir : Mitsubishi Galant et
Maserati Ghibli GT (tableau ci-dessous).
Page | 89
Seuils
0,371
|DFBETASi|
0,345
Type de vhicule
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Maserati Ghibli GT
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Mitsubishi Galant
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut
2,064
2,069
0,830
0,167
|Rsidus
|Rsidus
|DFFITSi| |D Cooki|
Rsidus Levier
Studentiss| Stud. Supp|
0,1475
-0,4515
0,3251
-0,6830
0,1514
0,9306
-0,5173
0,0893
-1,0350
0,5072
0,7910
0,8252
0,3044
-0,3448
1,0920
0,6006
-0,6123
0,0995
-0,7428
0,7189
-0,6830
0,0310
-1,7947
-1,0398
-0,0659
-0,3114
0,5540
0,4271
0,6865
0,1688
0,1054
0,1318
0,0954
0,1334
0,1921
0,0588
0,9069
0,0516
0,0652
0,1094
0,1450
0,0643
0,0702
0,0427
0,0661
0,1556
0,0902
0,0709
0,4733
0,2035
0,2004
0,2214
0,1495
0,1616
0,1177
0,2420
0,4154
0,0912
0,2145
0,6331
0,4627
0,9524
0,2157
1,3731
0,7071
0,3882
1,4094
0,6957
1,1116
1,1835
0,4174
0,4741
1,4800
0,8242
0,8837
0,1384
1,0219
1,3136
1,0149
0,0460
2,6972
1,4952
0,0955
0,4397
0,8439
0,7408
0,9550
0,2105
0,6256
0,4556
0,9506
0,2117
1,3980
0,7002
0,3817
1,4381
0,6886
1,1168
1,1931
0,4106
0,4670
1,5166
0,8190
0,8798
0,1358
1,0228
1,3331
1,0155
0,0451
3,1166
1,5336
0,0936
0,4327
0,8391
0,7342
0,9533
0,0949
0,2148
0,1775
0,3088
0,0831
0,6818
0,1750
1,1911
0,3354
0,1818
0,3914
0,4913
0,1076
0,1283
0,3203
0,2179
0,3777
0,0428
0,2825
1,2638
0,5133
0,0226
1,6621
0,6429
0,0411
0,1580
0,4742
0,6189
0,3021
0,0019
0,0094
0,0065
0,0191
0,0014
0,0897
0,0062
0,2934
0,0216
0,0067
0,0304
0,0475
0,0024
0,0034
0,0195
0,0096
0,0288
0,0004
0,0159
0,3102
0,0526
0,0001
0,4138
0,0786
0,0004
0,0052
0,0455
0,0780
0,0183
Cste
Prix
0,0891
0,1647
0,1510
0,1888
0,0535
0,4724
0,0820
0,3652
0,1203
0,0303
0,2358
0,0658
0,0480
0,0329
0,1268
0,0331
0,0477
0,0007
0,1859
0,0389
0,1567
0,0043
0,2174
0,4279
0,0228
0,0338
0,2798
0,2113
0,1358
0,0282
0,0038
0,0461
0,1337
0,0457
0,1109
0,0203
0,5240
0,1292
0,1022
0,1994
0,2939
0,0347
0,0421
0,0483
0,0204
0,2597
0,0096
0,0046
0,3809
0,2157
0,0156
1,1994
0,2261
0,0050
0,1300
0,0558
0,3605
0,0113
Seuil
Cylindre Puissance
0,0040
0,0453
0,0057
0,1458
0,0323
0,3252
0,0581
0,2015
0,1198
0,0047
0,1832
0,1054
0,0674
0,0392
0,0132
0,0808
0,2855
0,0292
0,0960
1,1874
0,0801
0,0006
1,0934
0,2820
0,0195
0,0421
0,2203
0,1014
0,0660
0,0180
0,0177
0,0416
0,1856
0,0554
0,0394
0,0230
0,0444
0,1541
0,0728
0,1797
0,2127
0,0424
0,0300
0,0197
0,0056
0,2704
0,0157
0,0399
0,7164
0,2161
0,0141
1,5028
0,2562
0,0038
0,1143
0,0280
0,3994
0,0522
Poids
0,0482
0,0415
0,0663
0,1368
0,0336
0,0054
0,0226
0,3870
0,0281
0,0046
0,2976
0,1144
0,0673
0,0464
0,0057
0,0912
0,2513
0,0176
0,0147
0,7441
0,0361
0,0002
0,5136
0,4504
0,0335
0,0496
0,4014
0,1656
0,1140
0,517
COVRATIOi
|COVRATIOi -1|
1,4509
1,2584
1,3446
1,1262
1,3914
1,0336
1,1730
12,6883
0,8621
1,1847
1,0709
1,0788
1,2573
1,2529
0,8185
1,1412
1,2372
1,3324
1,0668
1,6387
1,2480
1,5210
0,3028
0,9125
1,4487
1,3284
1,3971
1,8706
1,1199
0,4509
0,2584
0,3446
0,1262
0,3914
0,0336
0,1730
11,6883
0,1379
0,1847
0,0709
0,0788
0,2573
0,2529
0,1815
0,1412
0,2372
0,3324
0,0668
0,6387
0,2480
0,5210
0,6972
0,0875
0,4487
0,3284
0,3971
0,8706
0,1199
Les rsultats de lexcution de ces commandes sont rsums par la figure suivante :
Page | 90
La lecture des rsultats donns par cette figure montre que les vhicules n 1, 2, 30 et 31
respectivement Hyundai Sonata 3000, Ferrari 456 GT, Mitsubishi Galant et Mercedes S 600 sont des
points suspectes. On trouve les mmes rsultats.
13. Colinarit et slection des variables
13.1. Dfinition, consquences et illustration de la colinarit
Dfinition
Un des problmes qui peut se produire dans une analyse de rgression linaire multiple est la prsence
de variables indpendantes redondantes qui provoquent de linstabilit dans les calculs. Il peut arriver,
toutefois, que certaines variables soient trs corrles entre elles et mesurent toutes la mme chose.
La multicolinarit est le fait quune variable indpendante est prdictible par (ou partage sa variance
avec) une combinaison linaire des autres variables indpendantes. Pour faire simple, disons qu'une
combinaison linaire est une variable que l'on obtient en faisant la somme pondre de plusieurs autres
variables. Ainsi, si l'on cre une variable X3 en faisant la somme pondre de deux autres variables X1
et X2, par exemple X3 = 2X1 + 3X2, alors X1, X2 et X3 seront multicolinaires.
On peut gnraliser cette dfinition en dfinissant la colinarit comme la corrlation entre une des
exognes avec une combinaison linaire des autres exognes.
Consquences
La consquence de la colinarit entre deux variables indpendantes (VI) est que les effets respectifs
de chacun de ces deux prdicteurs ne se cumulent pas simplement. En effet si deux variables sont
colinaires, cela implique quelles partagent une partie de leur variance. Plus prcisment, on peut
distinguer une variance propre la VI1, une variance propre la VI2, et une variance commune aux
deux. Comme toujours, la part de variance partage par deux variables est gale au carr de leur
corrlation linaire.
Si lon ajoutait simplement leffet de la VI1 et celui de la VI2, sans autre forme de procs, on
compterait deux fois leffet de la variance commune aux deux et une seule fois leffet de la variance
propre chaque VI.
En prsence de la colinarit, plusieurs problmes peuvent surgir :
- les valeurs/signes des coefficients sont contradictoires, elles ne concordent pas avec les
connaissances du domaine ;
- les variances des estimateurs sont exagres ;
- au point que les coefficients ne paraissent pas significatifs (au sens du t de Student du test de nullit
des coefficients), poussant le statisticien les supprimer indment ;
- les rsultats sont trs instables, l'adjonction ou la suppression de quelques observations modifie du
tout au tout les valeurs et signes des coefficients.
Il y a un vrai risque de passer ct d'une variable exogne importante tout simplement parce qu'elle
est redondante avec une autre. La colinarit entre variables exognes rend illusoire la lecture des
rsultats sur la base des valeurs et de la significativit des coefficients. Cest pourquoi il faut accorder
plus dimportance ce phnomne -dtection et traitement- avant toute interprtation approfondie.
Illustration
Si la colinarit est forte, det(XX) 0, l'inverse (XX)-1 contient des valeurs trs leves. Il en est de
= s
mme pour la matrice de variance covariance des coefficients estims : W
e (X X). Ds lors, le t
Page | 91
faibles valeurs. La variable parat non significative, elle est limine par le statisticien.
Pour effectuer cette vrification, on doit calculer et analyser des indicateurs illustrant ce phnomne.
Du point de vue du diagnostic, la multicolinarit se dtecte en faisant la rgression de l'une variable
indpendante envisage par les autres (on laisse provisoirement de ct la question de la variable
dpendante). Le carr du R multiple obtenu dans cette rgression reprsente la part de la variance de la
variable indpendante explique par l'ensemble des autres variables explicatives. Cela reprsente donc
en fait le degr auquel on peut dire qu'il existe une combinaison linaire qui relie les variables
explicatives. Idalement, ce R doit donc tre minimal.
13.2. Techniques de dtection
13.2.1. Test de Klein
Il ne s'agit pas d'un test proprement parler mais plutt d'un indicateur simple pour dtecter
rapidement les situations au problme.
Le test de Klein est fond sur la comparaison du coefficient de dtermination R calcul sur le modle
p variables (y = a + ax + ax + ax+ + ax+ e) et les carrs des coefficients de
corrlation simple r, entre les variables explicatives pour i j.
Si R < r,, il y a prsence de multicolinarit. Dans la pratique, une simple proximit entre les
valeurs R < r, doit nous alerter.
Nous appliquons ce test sur les donnes de la consommation des vhicules avec 27 observations.
La compilation de ces donnes par le logiciel SPSS donne les rsultats suivants :
La matrice des corrlations au carr des exognes deux deux est rsume par le tableau suivant :
Matrice des corrlations au carr
Prix Cylindre Puissance Poids
1
0,84
0,86 0,90
Prix
1
0,91 0,74
Cylindre 0,84
0,91
1 0,73
Puissance 0,86
0,90
0,74
0,73
1
Poids
La lecture des coefficients du tableau ci-dessus permet de dgager deux situations qui peuvent poser
problme : la corrlation entre la puissance et la cylindre (r2 = 0,91); celle entre le poids et le prix
(r2= 0,90).
Page | 92
Cela peut expliquer notamment pourquoi les variables puissance et cylindre ne paraissent pas
pertinentes pour expliquer la consommation des vhicules.
13.2.2. Facteur d'inflation de la variance (VIF), tolrance et indice de condition
Le test de Klein ne dtecte que la colinarit bivarie. Pour valuer la multicolinarit, il faudrait
effectuer la rgression de chaque exogne Xj avec les (p-1) autres exognes, puis tudier le coefficient
de dtermination R associ.
On appelle facteur d'inflation de la variance (VIF pour Variance Inflation Factor) la quantit :
=
1
1 R
s
e
Plus sera lev, plus la variance V(a) de l'estimation sera forte. L'estimation a sera donc trs
instable, il aura moins de chances d'tre significatif dans le test de nullit du coefficient dans la
rgression.
La question qui se pose est la suivante : A partir de quelle valeur de doit-on s'inquiter ? Si les
variables taient 2 2 indpendantes, = 1 et V(a) =
la rgression multiple partir de p rgressions simples.
s
e
Le facteur dinflation de la variance ne tient donc pas compte du tout de la variable dpendante Y du
modle de rgression linaire. Si on observe une valeur 10, on peut suspecter la prsence de
colinarit entre les variables indpendantes.
La moyenne du facteur dinflation de la variance est aussi utilise pour interprter globalement
limportance de la multicolinarit. Dans cette quation, p est le nombre de variables indpendantes et,
= . Lorsque
est suprieure 1, cela indique un srieux problme de
donc,
VIF
VIF
multicolinarit.
De faon pratique, effectuer p rgressions peut tre lourd (p lev et beaucoup dobservations), on peut
lire le VIF sur la diagonale principale de la matrice inverse de la matrice des corrlations.
13.2.3. La tolrance
Il arrive aussi que linverse du facteur dinflation de la variance soit utilis comme indicateur de la
multicolinarit. Il sagit de la tolrance, qui est galement fournie par les logiciels statistiques.
Tolrance =
1
= (1 R)
Puisque la valeur critique du facteur dinflation de la variance est gale 10, la valeur critique de la
tolrance est alors fixe 110 = 0,1. Tolrance et facteur dinflation de la variance correspondent ainsi
deux mesures totalement relies et une seule de ces mesures est gnralement utilise.
13.2.4. Indice de condition K
Page | 93
Une autre faon qui permet de dtecter un problme de multicolinarit est dutiliser lindice de
condition K (Indice de conditionnement). Lindice de condition est gal la racine carre du rapport
entre la plus grande valeur propre (eigenvalue) de la matrice de corrlations des variables
indpendantes l et la plus petite valeur propre l de cette mme matrice. Soit, K =
l
l
. Lorsque ce
rapport est suprieur 10, la matrice des corrlations est dite mal conditionne et un problme de
multicolinarit est dtect. Belsey, Kuh et Welsh (1980) ont propos une variante K qui permet de
calculer un indice de condition pour chacune des j valeurs propres de la matrice de corrlation des
variables indpendantes. Soit, K =
X1
X2
X3
X4
X4
0,95
0,86
0,85
1,00
19,79
-1,45
-7,51
-11,09
X2
X3
-1,45
12,87
-9,80
-1,36
-7,51
-9,80
14,89
2,86
X4
-11,09
-1,36
2,86
10,23
r,
1
=
1
1
1
= 0.
1
Lide de ce test est quune colinarit parfaite entre X1 et X2 implique un coefficient de corrlation
1 1
r,= 1. Dans cette situation, le dterminant D = 0. D =
= 0
1 1
1 0
Dans le cas dune absence de colinarit, r, = 0 et donc D = 1. D =
= 1
0 1
Le test de colinarit se basera donc sur D.
Dans le cas de plus de deux variables explicatives, D sera le dterminant dune matrice p p contenant
tous les coefficients de corrlation possibles entre les variables explicatives.
1 r,
r, 1
D=
r
,r ,
r,
r,
r ,
r,
r,
Lorsque la valeur du dterminant D tend vers zro, le risque de multicolinarit est important.
Le test scrit :
H : D = 1; les variables explicatives sont indpendantes.
H: D < 1; .
Une transformation du dterminant D permet de driver une statistique de test dont la distribution est
connue sous H0. Il sagit de la statistique de test de Farrar-Glauber : c = n 1 (2P + 5)ln D ,
qui suit une loi 2P(P1)/2 sous H0 : P = p + 1, ln() le logarithme nprien et n la taille de lchantillon.
Si
Nous appliquons ce test sur les donnes de la consommation des vhicules avec 27 observations.
D = 0,00000721 ;
c > c,%
,
1. Nous calculons la rgression linaire multiple : y = a0 + a1x1 + + apxp, nous recueillons les
signes des coefficients estims a .
2. Nous calculons les corrlations croises entre chaque variable exogne Xj et l'endogne : r, .
3. Il y a prsence de colinarit s'il existe des situations o signe(a ) signe(ry,xj). En effet, cela
Le tableau suivant rsume les rsultats des calculs intermdiaires. La comparaison des les coefficients
de la rgression avec les coefficients de corrlation avec y, montre quil y a un conflit pour la variable
puissance que nous souponnons justement d'tre carte tort.
Prix
Cylindre
Puissance
Poids
0,00003
0,00121
-0,00374
0,00373
0,94260
0,90879
0,88830
0,94474
!)(!
modles diffrents
faisant intervenir q variables explicatives. Cela fait au total pour = 2 modles possibles
considrer. Cest une mthode fastidieuse et difficile utiliser sans un ordinateur rapide.
Pourquoi ?
Parce quil faut calculer toutes les rgressions possibles impliquant un sous-ensemble des p variables
explicatives disposition, soit un total de 2 rgressions.
Comment ?
Ces quations sont rparties selon le nombre r de variables explicatives quelles contiennent.
Chaque ensemble dquations est ordonn selon le critre choisi, souvent le R.
Les meilleures quations de rgression issues de ce classement sont ensuite slectionnes pour
un examen plus dtaill.
Page | 96
valuer, il est gal 2p-1, ce qui peut se rvler excessif lorsque p est lev. Il faut donc choisir une
stratgie de recherche non-exhaustive mais qui a de bonnes chances de trouver la solution optimale.
Il existe un grand nombre de techniques d'exploration dans la littrature. Elles se distinguent par leur
complexit et leur aptitude trouver la solution maximisant le critre.
Mais quel critre justement ? C'est ce que nous allons tudier maintenant.
Critre du R
Le critre du R se rvle le plus simple dfinir. Il exprime la part de la variance explique par le
modle. C'est le premier critre que l'on regarde dans une rgression. On essaie de trouver la
combinaison de variables qui maximise le R2.Cependant, il prsente des inconvnients majeurs qui
rsident dans le fait quil augmente de faon monotone avec lintroduction de nouvelles variables
mme si celles-ci sont peu corrles avec la variable explique Y. la limite, on connat d'office la
solution optimale : c'est le modle comportant les p variables candidates.
Critre du R-ajust
Il sagit dintroduire un R qui concerne la population et non plus lchantillon dfini par :
R
=1
()
= 1
()
()
se
= 1
s
()
= 1 (1 R) ()
Proprits de R-ajust
- R-ajust R ds que p 2 ;
- R-ajust peut prendre des valeurs ngatives.
Intrts de R-ajust
- R-ajust naugmente pas forcment lors de lintroduction de variables supplmentaires dans le
modle ;
- Possibilit de comparer deux modles nayant pas le mme nombre de variables laide du
R-ajust et choisir le modle pour lequel R-ajust est le plus grand.
AIC = n ln
SCR
+ 2(q + 1)
n
SCR
+ ln(n) (q + 1)
n
Slection de variables sur les donnes consommation-Critre AIC
BIC = n ln
27
Il convient de signaler que ces techniques de slection ne tiennent pas compte explicitement de la redondance entre les
variables. Cela est fait de manire implicite avec la pnalisation de la complexit : deux explicatives corrles n'amliorent
gure le SCR mais sont pnalises parce que la complexit augmente, elles ne peuvent pas tre simultanment prsentes
dans le modle.
Page | 97
Nous allons essayer de trouver le modle optimal qui minimise le critre AIC. Nous adoptons une
dmarche backward. Elle consiste, partir du modle complet comportant toutes les variables,
liminer unes unes les variables qui permettent de diminuer l'AIC, et de continuer ainsi tant que la
suppression d'une variable amliore le critre.
Bref, la procdure se prsente comme suit :
1. calculer l'AIC pour le modle comportant l'ensemble de variables ;
2. valuer l'AIC conscutive la suppression de chaque variable du modle, choisir la suppression
entranant la plus forte diminution et vrifier qu'elle propose une amlioration du critre par rapport
la situation prcdente ;
3. si non, arrt de l'algorithme ; si oui, retour en (1).
Lapplication de cette procdure sur les donnes consommation des vhicules (27 observations), en
utilisant le logiciel EXCEL, donne les rsultats suivants :
,
Type de vhicule
1 Daihatsu Cuore
2 Suzuki Swift 1.0 GLS
3 Fiat Panda Mambo L
4 VW Polo 1.4 60
5 Opel Corsa 1.2i Eco
6 Subaru Vivio 4WD
7 Toyota Corolla
8 Opel Astra 1.6i 16V
9 Peugeot 306 XS 108
10 Renault Safrane 2.2. V
11 Seat Ibiza 2.0 GTI
12 VW Golt 2.0 GTI
13 Citroen ZX Volcane
14 Fiat Tempra 1.6 Liberty
15 Fort Escort 1.4i PT
16 Honda Civic Joker 1.4
17 Volvo 850 2.5
18 Ford Fiesta 1.2 Zetec
19 Hyundai Sonata 3000
20 Lancia K 3.0 LS
21 Mazda Hachtback V
22 Opel Omega 2.5i V6
23 Peugeot 806 2.0
24 Nissan Primera 2.0
25 Seat Alhambra 2.0
26 Toyota Previa salon
27 Volvo 960 Kombi aut
846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
2496
1998
1997
1984
2438
2473
650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1670
1560
1240
1635
1800
1570
y
5.7
5.8
6.1
6.5
6.8
6.8
7.1
7.4
9
11.7
9.5
9.5
8.8
9.3
8.6
7.7
10.8
6.6
11.7
11.9
10.8
11.3
10.8
9.2
11.6
12.8
12.7
5.43
6.25
5.86
7.52
6.99
5.59
7.69
8.35
8.66
10.99
8.83
9.20
9.15
8.33
8.21
8.36
10.76
7.26
11.60
12.25
10.66
12.19
11.04
9.60
11.36
12.70
11.71
0.27
-0.45
0.24
-1.02
-0.19
1.21
-0.59
-0.95
0.34
0.71
0.67
0.30
-0.35
0.97
0.39
-0.66
0.04
-0.66
0.10
-0.35
0.14
-0.89
-0.24
-0.40
0.24
0.10
0.99
SCR
0.07
0.21
0.06
1.03
0.04
1.47
0.34
0.90
0.12
0.51
0.44
0.09
0.12
0.94
0.15
0.43
0.00
0.43
0.01
0.12
0.02
0.79
0.06
0.16
0.06
0.01
0.99
9.57
AIC =
Poids
0.00450
0.00078
0.92768
Cylindre
Poids
-21.9986
DROITEREG
Cylindre
0.00131
0.00038
0.63154
Cte
1.39228
0.49688
#N/A
X'X
27
48 656
32 215
48 656
98 146 440
62 516 380
32 215
62 516 380
41 004 125
INV(X'X)
0.00010060
-0.00063972
0.00010060
0.00000037
-0.00000064
-0.00063972
0.61903339
-0.00000064
0.00000151
Page | 98
Le modle optimal au sens du critre AIC est : y = 1,39228 + 0,0131 x Cylindre + 0,00450 x Poids
Ce rsultat peut tre obtenu facilement en utilisant le logiciel R (listing suivant).
> Reg=lm(cons~Prix+Puis+Cyli+Poid)
> step(reg)
Prix Cyli Puis Poid
11600 846
32 650
12490 993
39 790
10450 899
29 730
17140 1390
44 955
14825 1195
33 895
13730 658
32 740
19490 1331
55 1010
25000 1597
74 1080
22350 1761
74 1100
36600 2165 101 1500
22500 1983
85 1075
31580 1984
85 1155
28750 1998
89 1140
22600 1580
65 1080
20300 1390
54 1110
19900 1396
66 1140
39800 2435 106 1370
19740 1242
55 940
38990 2972 107 1400
50800 2958 150 1550
36200 2497 122 1330
47700 2496 125 1670
36950 1998
89 1560
26950 1997
92 1240
36400 1984
85 1635
50900 2438
97 1800
49300 2473 125 1570
Start: AIC=-18.69
cons ~ Prix + Puis + Cyli
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
- Puis
- Prix
<none>
- Cyli
- Poid
Df Sum of Sq
1
0.0263
1
0.2403
1
1
RSS
9.3547
9.5687
9.3285
1.1863 10.5148
3.4891 12.8176
cons
5.7
5.8
6.1
6.5
6.8
6.8
7.1
7.4
9.0
11.7
9.5
9.5
8.8
9.3
8.6
7.7
10.8
6.6
11.7
11.9
10.8
11.3
10.8
9.2
11.6
12.8
12.7
+ Poid
AIC
-20.619
-20.008
-18.695
-17.462
-12.116
Step: AIC=-20.62
cons ~ Prix + Cyli + Poid
- Prix
<none>
- Cyli
- Poid
Df Sum of Sq
1
0.2174
1
1
RSS
9.5721
9.3547
1.9026 11.2573
3.8373 13.1920
AIC
-21.999
-20.619
-17.620
-13.338
Step: AIC=-22
cons ~ Cyli + Poid
Df Sum of Sq
<none>
- Cyli
- Poid
1
1
RSS
AIC
9.5721 -21.9986
4.6517 14.2238 -13.3049
13.4712 23.0433 -0.2785
Call:
lm(formula = cons ~ Cyli + Poid)
Critre du PRESS
somme des carrs totaux est constante quelle que soit la rgression considre ; SCR est dfinie de la
manire suivante : SCR = (y y)
Quand on rajoute de nouvelles variables dans le modle, mme non pertinentes, SCR diminue
mcaniquement (au pire il reste constant), et par consquent R2 augmente. Cela provient du fait que
l'on confronte la vraie valeur yi avec la prdiction y alors que l'observation i a particip l'laboration
du modle. Si on continue ajouter des nouvelles variables on aura un R2 = 1.
Donc, pour avoir une bonne estimation en prdiction, il ne faudrait pas que l'observation i participe la
construction du modle lorsqu'on veut prdire sa valeur de l'endogne. Elle intervient ainsi comme une
observation supplmentaire. On dduit alors un indicateur similaire au SCR que l'on appelle PRESS
(Predicted Residual Sum of Squares) : = (y y(i))
Page | 99
A la diffrence du R2, nous disposons d'un critre puissant d'valuation des performances en
prdiction. Il est possible ds lors de dfinir une stratgie de slection de variables uniquement bas
sur ce critre de performances, sans tenir compte explicitement de la complexit du modle. En effet,
dans la pratique, on se rend compte que si l'on rajoute des variables non-pertinentes, sans pouvoir
explicatif, le R2 peut s'amliorer, le PRESS lui en revanche se dgrade, indiquant par l l'inutilit de la
variable.
Application : calcul du PRESS sur les donnes consommation
Le tableau suivant donne les dtails de calcul du critre PRESS.
i
Type de vhicule
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut
Cste
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
2496
1998
1997
1984
2438
2473
32
39
29
44
33
32
55
74
74
101
85
85
89
65
54
66
106
55
107
150
122
125
89
92
85
97
125
650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1670
1560
1240
1635
1800
1570
PRESSi
y
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
11,3
10,8
9,2
11,6
12,8
12,7
5,56
6,26
5,89
7,49
7,00
5,74
7,67
8,36
8,55
10,91
8,69
9,29
9,14
8,30
8,14
8,20
10,84
7,31
11,57
12,35
10,58
12,23
10,99
9,44
11,25
12,86
11,88
0,14
-0,46
0,21
-0,99
-0,20
1,06
-0,57
-0,96
0,45
0,79
0,81
0,21
-0,34
1,00
0,46
-0,50
-0,04
-0,71
0,13
-0,45
0,22
-0,93
-0,19
-0,24
0,35
-0,06
0,82
0,02
0,21
0,04
0,99
0,04
1,13
0,32
0,93
0,20
0,62
0,66
0,04
0,12
1,01
0,21
0,25
0,00
0,50
0,02
0,20
0,05
0,86
0,04
0,06
0,12
0,00
0,67
0,22
0,11
0,14
0,13
0,17
0,29
0,06
0,06
0,09
0,12
0,19
0,10
0,07
0,05
0,09
0,20
0,12
0,09
0,58
0,33
0,21
0,18
0,17
0,16
0,30
0,50
0,27
0,78
0,89
0,86
0,87
0,83
0,71
0,94
0,94
0,91
0,88
0,81
0,90
0,93
0,95
0,91
0,80
0,88
0,91
0,42
0,67
0,79
0,82
0,83
0,84
0,70
0,50
0,73
PRESS
SCR
0,03
0,27
0,06
1,31
0,06
2,21
0,36
1,05
0,25
0,80
1,01
0,05
0,14
1,11
0,26
0,40
0,00
0,60
0,09
0,46
0,07
1,30
0,05
0,08
0,26
0,01
1,25
13,54
9,33
Daprs les donnes du tableau ci-dessus, nous avons : SCR = 9,33 et PRESS = 13,54. Nous avons
systmatiquement la relation SCR PRESS. Plus l'cart entre ces deux indicateurs est lev, plus le
modle "colle" trop aux donnes, il intgre des spcificits du fichier et ne restitue plus la vraie
relation qui existe dans la population.
Le Cp de Mallows
La statistique du Cp de Mallows est dfinie par :
C =
SCR
s
e
(n 2p)
Cependant, avec ce critre nous avons C = p et alors il ne serait plus intressant . Pour surmonter ce
Page | 100
Que faisons-nous dans la pratique ? Dans la pratique, nous procdons comme suit :
1. Nous estimons se par le se du modle qui fait intervenir toutes les p variables explicatives du
modle disposition. Pour ce modle, qui a p + 1 paramtres, nous avons toujours : Cp+1 = p + 1. Et
pour les autres ? Cp prendra dautres valeurs que p.
Critre du Cp de Mallows
Nous choisissons parmi les modles le modle o le Cp de Mallows est le plus proche de p.
F de Fisher
Ce critre, justifi dans le cas explicatif est aussi utilis titre indicatif pour comparer des squences
de modles embots. La statistique partielle de Fisher est :
R R
(SCE SCE)/q
R R n p 1
F=
=
=
(1 R)
SCR/(n p 1)
(1 R)
q
np1
dans laquelle lindice q dsigne les expressions concernant le modle rduit avec (p q) variables
explicatives. On considre alors que si laccroissement (R R) est suffisamment grand :
F=
()
28
Il y a lieu de signaler que la variable tester est celle qui maximise le F = t2. Nous sommes en situation de comparaisons
multiples. La loi sous l'hypothse nulle est modifie. On n'est pas sr de prendre rellement un risque d'accepter tort
une variable. Pour viter cet aspect trompeur, certains logiciels proposent de fixer directement une valeur seuil de F pour
accepter ou rejeter la meilleure variable chaque tape. Cela peut paratre arbitraire, d'autant que les valeurs par dfaut
correspondent peu ou prou des niveaux de risques usuels. Mais au moins, le statisticien vitera de faire rfrence
explicitement un niveau de risque erron. Par exemple le logiciel SPSS offre deux possibilits l'utilisateur : il peut fixer
un risque critique ou directement un seuil critique. L'essentiel tant de bien comprendre ce que l'on est en train de
manipuler.
Page | 101
La lecture des donnes ci-dessus montre que parmi les 4 rgressions simples, c'est la variable poids qui
prsente un t2 = 14,409 = F = 207,63 le plus lev, elle est trs significative, en tous les cas avec un pvalue largement en-de du niveau que l'on s'est fix (5%).
La variable poids est donc intgre.
Etape 2 :
Nous essayons de chercher la variable qu'on pourrait lui adjoindre. Nous effectuons 3 rgressions 2
variables (poids et une autre).
La variable cylindre se rvle tre la plus intressante, avec un F=11,66, elle est significative 5%.
Elle est intgre.
Etape 3 :
Durant cette tape, nous avons 2 rgressions 3 variables (poids, cylindre et une autre) tester.
Page | 102
Nous constatons que la variable la plus intressante, prix avec un F = 0,53, n'est plus significative (pvalue > 5%). On s'en tient donc au modle 2 variables : poids et cylindre.
Soit le modle final : = , + , ,
Le tableau suivant rcapitule les rsultats de cette procdure :
Rsultats de la slection Forward
Il est noter que l'optimisation du AIC et la slection Forward bas sur le F donnent les mmes
rsultats. Ce n'est pas toujours vrai dans la pratique.
Lapplication de cette procdure, moyennant le logiciel SPSS, sur les donnes de la consommation des
vhicules donne les rsultats suivant (listing) :
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=FORWARD Prix Cylindre Puissance Poids.
Page | 103
On fixe gnralement un risque plus lev pour la suppression : la possibilit de retenir une variable est favorise par
rapport celle d'en ajouter. Notamment parce que la colinarit peut masquer le rle de certaines d'entre elles 10. Par
exemple pour le logiciel SPSS, la valeur = 10% est propose par dfaut.
29
Page | 104
Le R2 du modle complet 4 variables est gal 0,930. La variable la moins intressante est
puissance avec un t2 = (-0,249) = 0,0620, elle n'est pas significative 10% (p-value = 0,806). Elle
est retire du modle complet.
Etape 2 :
Le modle suivant, 3 exognes, possde un R2 = 0,929. La variable la moins pertinente est prix
qui n'est pas significative, elle est galement limine.
Etape 3 :
Page | 105
La rgression 2 exognes, cylindre et poids, possde des variables qui sont toutes significatives
10% : c'est notre modle dfinitif30 avec un R2 = 0,928.
Soit le modle final31 : = , + , ,
Le tableau suivant rcapitule les rsultats de cette procdure :
Rsultats de la slection Backward
Lapplication de cette procdure, moyennant le logiciel SPSS, sur les donnes de la consommation des
vhicules donne les rsultats suivant (listing) :
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=BACKWARD Prix Cylindre Puissance Poids.
30
Il est remarquer que le R2 diminue mesure que nous supprimons des variables. Mais la dgradation est minime au
regard du gain en simplicit obtenu en rduisant le nombre de variables du modle.
31
Il est noter que les procdures Forward et Backward, bases sur le F, ont donnes les mmes rsultats. Ce n'est pas
toujours vrai dans la pratique.
Page | 106
Procdure stepwise
Cest une procdure mixte des deux mthodes Forward et Backward . A la premire tape, on
commence par construire le meilleur modle 1 exogne. Par la suite, chaque tape, on regarde si
l'ajout d'une variable ne provoque pas le retrait d'une autre. Cela est possible lorsqu'une variable
exogne expulse une autre variable qui lui est corrle, et qui semblait pourtant plus significative dans
les tapes prcdentes.
Gnralement, on fixe un risque plus exigeant pour la slection (5% par exemple, on ne fait entrer la
meilleure variable que si elle est significative 5%) que pour la suppression (10% par exemple, on
supprime la variable la moins pertinente si elle est non significative 10%).
Lapplication de cette procdure, par le logiciel SPSS, donne le modle final suivant (voir listing
suivant) :
= , + , ,
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=STEPWISE Prix Cylindre Puissance Poids.
Page | 107
Ltape suivante consiste choisir la variable Xb qui est la plus corrle avec la fraction de Y nonexplique par Xa. Pour ce faire, on calcule le rsidu de la rgression : e = y (a0 + a1 Xa).
La variable Xb est celle qui est la plus corrle avec e1. On l'intgre dans le modle si la corrlation est
significativement diffrent de 0 au risque . Il est signaler que les degrs de libert sont modifis (n3), il en est de mme pour la statistique du test. On utilise t =
Si la variable Xb est intgre, nous cherchons la variable suivante Xc qui explique au mieux la
fraction de Y non-explique conjointement par Xa et Xb. Le plus simple toujours est de prendre le
rsidu e = y (b + bXa + bXb), de choisir la variable qui lui le plus corrl, et de tester la
significativit du coefficient de corrlation avec un tc de Student (n-4) degrs de libert.
t =
4. Nous calculons les corrlations e1 et Xj pour dterminer la variable la plus corrle avec e1.
5. Premirement, un rsultat vident : la corrlation entre e1 et poids est nulle (=0), puisque e1 est la
fraction de la variable consommation qui n'est pas explique par poids.
La variable la plus intressante est cylindre (r=0,291), toutefois elle nest pas significative au risque
5% (signification bilatrale =0,141).
Page | 109
On parle de corrlation brute lorsquon mesure directement la liaison entre Y et X sans lintervention
d'aucune autre variable. Pour vrifier que la corrlation entre deux variables est significativement
diffrent de zro, nous effectuons le test d'hypothses sur le coefficient de corrlation . Ce dernier
quantifie le degr de liaison linaire entre ces deux variables continues. C'est une mesure symtrique et
correspond l'estimation de sur un chantillon de n observations.
Certes, ce n'est pas parce que 2 variables varient de manire simultane, dans le mme sens ou en sens
oppos, qu'il faut y voir forcment une relation de cause effet. Parfois, la corrlation peut tre
totalement accidentelle, il s'agit simplement d'un artefact statistique auquel on ne peut donner
aucune interprtation valable. Parfois aussi, et c'est le cas qui nous intresse ici, elle est due une
tierce variable qui joue le rle d'intermdiaire entre les 2 variables tudies.
A titre dexemple, ventes de lunettes de soleil et ventes de glaces : aucune des deux n'a un effet sur
l'autre, il s'agit plutt de la temprature qui les fait varier dans le mme sens.
Un autre exemple, la corrlation entre la taille des personnes et la longueur de leurs cheveux est
ngative. Avant d'y voir un quelconque phnomne de compensation, on se rend compte qu'il y a 2
populations : les hommes et les femmes (graphique suivant). En gnral, les hommes sont plus grands
et ont les cheveux plus courts. La variable "sexe" est la variable intermdiaire qui fait apparatre une
relation factice entre la taille et la longueur des cheveux.
L'ide de la corrlation partielle justement est de mesurer le degr de liaison entre 2 variables en
neutralisant (en contrlant) les effets d'une troisime variable.
Pour calculer le coefficient de corrlation partielle, nous utilisons les coefficients de corrlation brute :
r,/ =
,,,
, ,
(I)
L'ide derrire cette mesure est simple : on retranche de la liaison brute mesure entre y et x, l'effet
induit par z.
Pour vrifier la significativit d'une corrlation partielle, nous adoptons la mme dmarche que pour la
corrlation brute. Les hypothses tester sont :
Page | 110
,/
,/
H: r,/ = 0
H: r,/ 0
PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Prix
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
Au risque de 5%, il n y a pas de liaison significative entre consommation et puissance, une fois
retranche l'explication apporte par la cylindre. La mme constatation est valable en neutralisant la
variable prix (p-value =0,571). Par contre, le coefficient de corrlation partielle entre consommation et
puissance (0,486), en contrlant leffet de la variable Poids, est significative 5% (p-value=0,012).
Autres lectures : - cylindre gale, la consommation ne varie pas avec la puissance ;
- prix gal, la consommation ne varie pas avec la puissance ;
- poids gal, la consommation varie avec la puissance.
3. Obtenir la corrlation partielle en calculant la corrlation brute entre les 2 rsidus e1 et e2. Soit
r,/, = r, ;
Page | 111
Cette procdure de calcul peut tre gnralise lorsque nous avons k variables de contrle zj. Dans ce
H: r,/ , = 0
,
Objectif
Programme SPSS
Corrlation partielle
rCons.,Puissance/Cylindre,Poids
PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
Corrlation partielle
rCons.,Puissance/cylindre,Prix
PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre Prix
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
Corrlation partielle
rCons.,Puissance/Cylindre,Poids,prix
Sortie SPSS
PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre Pois
Prix
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
Objectif
Corrlation partielle
rCons.,Cylindre/Prix,Poids
Corrlation partielle
rCons.,Cylindre/Prix,Puissance
Corrlation partielle
rCons.,Cylindre/Prix,Puissance,Poids
Programme SPSS
Sortie SPSS
PARTIAL CORR
/VARIABLES=Consommation
Cylindre BY Prix Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
PARTIAL CORR
/VARIABLES=Consommation
Cylindre BY Prix Puissance
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
PARTIAL CORR
/VARIABLES=Consommation
Cylindre BY Prix Puissance Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
La notion de corrlation partielle s'accorde bien avec la slection de variables de type forward : on veut
mesurer l'information additionnelle apporte par une variable supplmentaire dans l'explication des
valeurs prises par l'endogne.
L'enchanement des oprations serait :
1. dtecter la variable exogne Xa la plus corrle (en valeur absolue) avec l'endogne, la retenir si la
liaison est significative ;
2. dtecter la seconde variable Xb exogne qui maximise la corrlation partielle ry,Xb/Xa, on l'introduit
dans le modle si elle est significativement diffrente de zro ;
3. l'tape q, il s'agit de calculer la corrlation partielle d'ordre q-1 pour slectionner ou pas la qme
variable.
4. La rgle d'arrt est une corrlation partielle non-significative de la meilleure variable une tape
donne.
Lapplication de cette mthode sur les donnes de la consommation des vhicules sopre comme suit :
Etape 1. On slectionne la variable Poids, car elle dtient le coefficient de corrlation le plus lev
(r=0,945) et elle est significative 5%(p-value=0,000).
Etape 2. On ajoute au modle la variable Cylindre car elle dtient le coefficient de corrlation
partielle avec lendogne en neutralisant leffet Poids (rCons.,Cylindre/poids =0,572) et elle est
significative 5%(p-value=0,002) (tableau suivant).
Page | 113
Etape 3. La variable la plus corrle avec l'endogne, conditionnellement poids et cylindre, est prix
avec r = 0,151. Toutefois, la liaison n'est pas significative 5% puisque la p-value = 0,472. Donc, nous
arrtons la procdure de slection.
Le modle dfinitif, selon cette approche, comprend les variables Poids et Cylindre .
Soit,
= , + , Poids, Cylindre
Aprs estimation des paramtres a , nous pouvons produire les rsidus ede cette rgression.
4. Calcul du coefficient de corrlation linaire sur les rsidus ( e , e). ce coefficient nous donne le
coefficient de corrlation partielle entre Y et Xp. Cette approche est trs pratique pour calculer les
corrlations partielles d'ordre suprieur 1 (paragraphe prcdant).
5. Calcul, partir de ce nuage de points, la rgression : e = z + d e + e et dduction des
rsidus e.
A partir de ce graphique des rsidus, on peut dgager des proprits intressantes :
=e
= 0
z = 0, puisque les variables qui intervenant dans la rgression sont centres : e
d = a. On retrouve le coefficient du modle complet incluant Xp.
- Si le nuage de points ne prsente pas de "forme particulire", s'il est globalement horizontal (de
pente nulle), la variable Xp n'apporte pas d'information supplmentaire pertinente par rapport aux
variables dj prsentes.
- Si les points forment une droite de pente non nulle, Xp influe linairement dans la rgression.
14.2. Application sur la consommation des vhicules
Durant cette application, nous allons valuer la contribution de la variable Puissance (Xp) dans
l'explication de la consommation (y), sachant que les variables, cylindre et poids, ont dj t
slectionnes.
1. Nous ralisons les rgressions suivantes, par le logiciel SPSS:
Consommation = f(Poids,Cylindre)
Puissance = f(Poids,Cylindre)
La lecture de ce graphique montre que le nuage de points ne prsente pas une pente particulire.
Donc, l'explication additionnelle de la puissance sur la consommation par rapport la cylindre
et le poids n'est pas dcisive.
Notons cependant une certaine dissymtrie de la distribution sur l'axe des abscisses
(RES_PUISSANCE). Elle est due aux deux points aberrantes : la Hyundai Sonata 3000 et la
Toyota Previa Salon.
3. Nous calculons la rgression sur les rsidus :
Page | 115
- la pente = 0,00121 (trs proche de 0), confirmant une faible influence additionnelle de puissance dans
la rgression. Le coefficient de dtermination est R2 = 0,00035.
4. La rgression, incluant toutes les explicatives (Poids+Puissance+Cylindre), est rsume par le
tableau suivant :
- en calculant les rsidus de cette rgression RES , nous retrouvons exactement les valeurs de e
RES_r ).
Type
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut
Cylindre Puissance
846
32
993
39
899
29
1 390
44
1 195
33
658
32
1 331
55
1 597
74
1 761
74
2 165
101
1 983
85
1 984
85
1 998
89
1 580
65
1 390
54
1 396
66
2 435
106
1 242
55
2 972
107
2 958
150
2 497
122
2 496
125
1 998
89
1 997
92
1 984
85
2 438
97
2 473
125
autres explicatives. Dans son principe, le critre vj est bas sur le coefficient de dtermination R de la
rgression de Xj sur les autres. On parle de rgressions croises. Nous avions obtenu directement la
valeur de vj sur la diagonale de l'inverse de la matrice des corrlations C-1.
Nous allons essayer, dans la suite de ce paragraphe, dapprofondir cette ide. Nous montrons qu'il est
possible de reconstituer les rsultats des rgressions croises partir de la matrice C-1.
Notons vkj les lments de la matrice C-1, qui est de dimension (p x p) ; vjj = vj est le VIF de la variable
Xj lue sur la diagonale de C-1. Nous nous intressons la rgression :
X = a + ax + + ax + ax + + ax+e
Coefficient de dtermination
Comme le VIF vl peut tre exprim en fonction du coefficient de dtermination R de cette rgression,
/()
F = ()/(())
= ( )/()
se
()
Avec
s
= (x x)
()
, k 0.
Corrlations partielles
Il est possible de produire les corrlations partielles entre les variables, prises deux deux, partir de
la matrice C-1. Pour mesurer la liaison entre les variables Xk et Xj en contrlant l'influence des autres,
nous calculons la quantit suivante : r,/{} =
L'objectif est de mesurer la "vritable" relation entre les variables, en dehors de toute influence. Un
dcalage ventuel (forte rduction en valeur absolue) entre les valeurs de r, et r,/{} est
rvlateur du caractre artificiel de la relation mesure l'aide de la corrlation brute que l'on peut lire
dans la matrice C.
Page | 117
1
0,92
C=
0,93
0,95
0,96
1
0,85
0,86 0,85
1
11,09
1,36
2,86
10,23
Durant cette section, nous allons exposer la procdure suivre pour trouver les calculs dtaills de la
rgression linaire multiple aussi bien avec un logiciel statistique SPSS quavec un tableur.
Page | 118
2. En cliquant sur
, insrez la variable dpendante dans la boite Dpendant et la ou les
variables indpendantes dans leur boite. Puisque vous ralisez une rgression simple, vous n'en
placez qu'une.
3. Vous laissez galement la mthode d'analyse par dfaut, c'est--dire le modle Entre qui utilise
toutes les variables choisies pour prdire la variable dpendante. Vous verrez les autres modles
plus en dtails si vous suivez un cours de statistiques avances.
Pour le choix de la mthode de rgression, autre que le modle Entre, voir le paragraphe de la
rgression linaire multiple.
4. Vous pouvez choisir une variable de filtrage pour limiter l'analyse un sous-chantillon form par
les participants ayant obtenu une ou des valeur(s) particulire(s) cette mme variable.
5. Vous pouvez aussi spcifier une variable qui permettra d'identifier les points sur le graphique
(tiquettes d'observation).
6.
Enfin, vous pouvez choisir une variable numrique pondre (Poids WLS) pour effectuer
l'analyse des moindres carrs. Par cette analyse, les valeurs sont pondres en fonction de leurs
variances rciproques, ce qui implique que les observations avec de larges variances ont un impact
moins important sur l'analyse que les observations associes de petites variances.
7.
Le bouton
Dans la rgression linaire simple, vous pouvez conserver les statistiques par dfaut fournies par SPSS.
D'abord, vous obtiendrez les estimations des coefficients de rgression qui permettent de reconstituer
l'quation de la droite de rgression.
Page | 119
Vous obtiendrez galement un tableau bas sur la distribution F vous informant de la qualit de
l'ajustement du modle.
Le bouton
Ce bouton vous permet de raliser plusieurs graphiques qui peuvent vous aider vrifier certaines
prmisses de la rgression.
Le bouton
Il est possible de sauvegarder les valeurs calcules par le modle de rgression et d'en faire de
nouvelles variables dans la base de donnes. Les options concernant les valeurs prdites et les rsiduels
ont t dfinis dans la section prcdente.
Page | 121
L'encadr des distances offre trois tests qui permettent d'identifier les observations qui influencent
fortement le modle :
Distance de Mahalanobis : mesure la distance entre une observation et la moyenne des valeurs
prdites. Le point de coupure indiquant une distance problmatique dpend du nombre de prdicteurs
et de la taille de l'chantillon. Il faut donc se rfrer la table de Barnett et Lewis (1978).
Distance de Cook : statistique qui considre l'effet d'un cas sur l'ensemble du modle. Les valeurs plus
leves que 1 doivent retenir l'attention du chercheur.
Valeurs influentes : mesure de l'influence de la valeur observe de la variable dpendante sur les
valeurs prdites. Cette valeur se calcule par le nombre de prdicteurs (k) + 1 divis par le nombre de
d'observations (N) et se situe entre 0 (aucune influence de l'observation sur la valeur prdite) et 1
(influence complte de l'observation sur la valeur prdite).
L'encadr des Intervalles de la prdiction permet de sauvegarder les valeurs minimales et maximales
prdites pour l'ensemble du modle (Moyenne) et ces mmes valeurs pour chaque observation
(Individuelle). L'intervalle de confiance est fix 95 %.
L'encadr des Statistiques d'influence permet dobtenir :
DfBeta(s) : variation de la variable beta du coefficient de rgression qui rsulte de l'exclusion d'une
observation. Une valeur est calcule pour chaque terme du modle, incluant la constante.
DfBeta(s) standardiss : variation de la variable beta standardise.
Diffrence de prvision : diffrence du degr d'ajustement du modle qui reprsente le changement de
la valeur prdite qui rsulte du retrait d'une observation particulire.
Dfprvision standardise : diffrence du degr d'ajustement du modle standardise.
Rapport de covariance : rapport entre le dterminant de la matrice de covariance lorsqu'une
observation est exclue du calcul du coefficient de rgression et le dterminant de la matrice de
covariance lorsque toutes les observations sont inclues. Si le ratio est prs de 1, l'observation
n'influence pas significativement la matrice de covariance.
L'encadr Satistiques coefficients : vous pouvez Crer des statistiques coefficient et les
enregistrer comme un nouvel ensemble de donnes. Cet ensemble sera disponible pour une utilisation
ultrieure durant la mme session, mais pas pour la session suivante moins que vous ne les
sauvegardiez par vous-mmes. Vous pouvez galement crire un nouveau fichier de donnes.
Page | 122
L'encadr Exporter les informations du modle dans un fichier XML : vous pouvez exporter les
paramtres estims du modle et leur matrice de covariance dans un fichier spcifique. Vous pourrez
utiliser les informations associes ce modle pour une autre base de donnes partir des logiciels
SmartScore et SPSS Server.
Cliquez sur
Le bouton
La dernire boite de dialogue vous offre quelques autres options.
Le premier encadr concerne la rgression multiple pas pas (Paramtres des mthodes
progressives). Vous pouvez Choisir la probabilit de F pour l'Entre des variables dans le modle.
Idalement, vous conserver le choix par dfaut (seuil de 0,05), mais vous pouvez galement rendre
votre modle plus svre et fixer ce seuil 0,01. Vous pouvez aussi modifier la valeur de
Suppression, comme vous pouvez Choisir la valeur de F pour l'Entre et la Suppression. Dans ce
cas, il vous faudrait la modifier en fonction du nombre de variables introduites dans le modle partir
d'une distribution F. C'est donc plus simple de se baser sur la probabilit de F qui demeure la mme
peu importe le nombre de variables.
Vous pouvez Inclure le terme constant dans l'quation (ordonne l'origine) ou non. Le retrait de la
constante n'est pas vraiment conseill.
Enfin, vous choisissez ce que vous dsirez faire avec les valeurs manquantes. Vous pouvez conserver
l'option par dfaut et Exclure toute observation incomplte de la rgression ou Exclure seulement
les composantes non valides. Dans ce cas, vous feriez l'analyse pour les observations qui ont des
donnes compltes pour les paires de variables corrles (une variable indpendante et une variable
dpendante). Puisque seulement deux variables sont mises en relation dans la rgression simple, a ne
fait aucune diffrence. Enfin, vous pouvez galement Remplacer par la moyenne les valeurs
manquantes. Ce n'est pas ncessairement le meilleur choix, puisque rien ne prouve que les valeurs
manquantes se situeraient en ralit prs de la moyenne. Idalement, vous conservez l'option par
dfaut.
Cliquez sur
pour revenir la boite de dialogue principale.
1. Pour raliser lanalyse, cliquez sur Analyse, Rgression, puis Linaire.
Page | 123
2. En cliquant sur
les botes appropries.
3.
Si vous dsirez absolument que la premire variable indpendante soit incluse, privilgiez la
mthode Entre.
4. Pour crer des blocs (groupes) de variable(s) indpendante(s) dans le cadre d'une rgression
hirarchique, cliquez sur
lorsque le premier bloc est construit, puis insrez les variables
indpendantes des autres blocs en rptant cette procdure. La mthode de rgression (Entre, Pas
pas, etc.) peut tre dtermine pour chaque bloc. Habituellement, la mthode Entre est utilise
moins d'a priori thoriques particuliers.
5. Vous pouvez choisir une variable de filtrage pour limiter l'analyse un sous-chantillon form par
les participants ayant obtenu une ou des valeur(s) particulire(s) cette mme variable.
Page | 124
6.
Vous pouvez aussi spcifier une variable qui permettra d'identifier les coordonnes sur le
graphique (tiquettes d'observation).
7.
Enfin, vous pouvez choisir une variable numrique pondre (Poids WLS) pour effectuer
l'analyse des moindres carrs. Par cette analyse, les valeurs sont pondres en fonction de leurs
variances rciproques, ce qui implique que les observations avec de larges variances ont un impact
moins important sur l'analyse que les observations associes de petites variances.
8.
Assurez-vous d'avoir slectionn les options ncessaires (par exemple, sous le bouton
Statistiques).
9. Pour procder l'analyse, cliquez sur
.
Une prsentation dtaille de toutes les options est disponible dans le procdurier de la rgression
simple.
Le bouton
Pour la rgression multiple, nous suggrons de cochez les options suivantes :
Lencadr Coefficients
Estimations : valeurs b pour chaque VI et son test de signification
Intervalles de confiance : intervalle pour chaque coefficient dans la population
Lencadr Rsidus
Durbin-Watson : valuation de lindpendance des erreurs
Diagnostic des observations : valeur de la VD observe, prdite, du rsiduel et du rsiduel standardis
pour chaque observation. Indique quelles observations ont un rsiduel standardis de plus de 2 ou 3 .t. (au choix de l'utilisateur)
Les autres statistiques
Qualit de lajustement : fournit le test pour valuer lensemble du modle (F), le R multiple, le R2
correspondant et le R2 ajust
Variation de R-deux : changement du R2 aprs lajout dun nouveau bloc de VI
Caractristiques : moyenne, .-t. et N pour toutes les variables du modle
Mesure et corrlations partielles :
Corrlation entre chaque VI et la VD
Corrlation partielle entre chaque VI et VD en contrlant pour les autres VI
Corrlation partie ou semi-partielle entre chaque VI et la variance non explique de la VD par les
autres VI
Test de colinarit : valuation de la multicolinarit dans le modle (VIF).
Cliquez sur
Le bouton
Les graphiques offerts permettent de vrifier par un examen visuel les prmisses de la rgression
linaire multiple. Celui croisant les valeurs prdites (*ZPRED) et rsiduelles (*ZRESID) standardises
illustre le respect (ou le non respect) de la prmisse dhomognit (rpartition alatoire des points
autour de 0) et de linarit (tendance des points se concentrer autour dune ligne).
Le bouton
Toutes les options disponibles dans ce menu permettent de crer des nouvelles variables ayant les
valeurs calcules par le modle. Il sagit donc de choisir les variables diagnostiques permettant
dvaluer la qualit du modle et celles qui permettent de dtecter les variables ayant une importante
influence sur le modle. On choisira donc minimalement les rsidus standardiss, mais on peut
galement ajouter les valeurs prdites non standardises et standardises (valeur de la VD calcule
pour chaque observation) ainsi que la distance de Cook et les DfBta(s) standardiss. Notez quen
cochant des options dans la bote de dialogue Enregistrer, vous allez obtenir un tableau de rsultats de
plus portant sur les statistiques des rsidus et comprenant minimalement la moyenne, lcart-type, les
valeurs minimales et maximales ainsi que le N.
Page | 126
Cliquez sur
Le bouton
La dernire fentre vous permet de dterminer les paramtres de slection des mthodes d'entre
progressives (Ascendante ou descendante - stepwise). Vous pouvez utiliser la valeur de la probabilit
associe la valeur F (soit la valeur de p) ou encore la valeur de la statistique F pour introduire ou
retirer des variables. Idalement, vous conservez les valeurs par dfaut moins que vous ne vouliez
que les critres d'entre ou de retrait des variables de votre modle soient plus svres ou plus
inclusifs.
videmment, vous laissez aussi la constante dans lquation. Vous pouvez finalement spcifier ce que
vous dsirez faire avec les valeurs manquantes. Encore une fois, loption par dfaut est privilgier
puisque le retrait de toute observation incomplte permet de conserver toujours le mme nombre
dobservations, ce qui favorise la cohrence du modle.
Cliquez sur
Page | 127
Page | 128
Page | 129
Page | 130
ANNEXES
Page | 131
Page | 132
Page | 133
Page | 134
Page | 135
Page | 136
Page | 137
Page | 138
Page | 139
Page | 140
REFERENCES BIBLIOGRAPHIQUES
Arnaud Guyader 2011, Rgression linaire , Universit Rennes 2.
C.Chouquet 2009-2010, Modles linaires , Laboratoire de Statistique et Probabilits - Universit
Paul Sabatier Toulouse.
Caroline BERNARD-MICHEL 2002, Etude sur la rgression linaire , Etude n70/00, Laboratoire
National dEssaies (LNE).
Caroline VERHOEVEN, Chapitre II : La rgression multiple . STAT-G204.
Catherine DEHON 2013-2014, Introduction l'conomtrie , Universit libre de Bruxelles.
Emmanuelle RENY-NOLIN, Larticle de Francis Galton Journal of the Anthropological Institute,
vol. 15, 1886. Dpartement de mathmatiques et de statistique, Universit LAVAL.
GALTON 1886, Regression towards mediocrity in hereditary
http://www.galton.org/essays/1880-1889/galton-1886-jaigi-regre ssion-stature.pdf.
Francis
stature .
Frdric Bertrand & Myriam Maumy-Bertrand 2012, Choix du modle de la rgression linaire
multiple , IRMA, Universit de Strasbourg, France.
Gilles RAICHE 2013, Rgression simple et rgression multiple , leon 08 in Collecte et traitement
de variables quantitatives en ducation, MAE 7020.
Huyn PHAM 2002-2003, Cours dconomtrie , Maitrise MASS, Universit Paris 7.
Jerme HUILLET 2002, INITIATION AL'ENVIRONNEMENT R , Universit Paul SABATIER,
Toulouse III.
Josiane CONFAIS - Monique LE GUEN 2006, PREMIERS PAS en REGRESSION LINEAIRE
avec SAS , Revue MODULAD, numro 35.
Nocolas JUNG 2015, Rgression linaire avec R avec lutilisation de ggplot2
Pierre-Andr Cornillon & Eric Matzner-Lber 2011, Rgression avec R .
Rgis BOURBONNAIS 2015, Cours et exercices corrigs , 9me dition.
Ricco RAKOTOMALALA 2013, La rgression linaire simple et multiple . Pratique de la
Rgression Linaire Multiple . Version 1.0. Universit Lumire Lyon 2.
Ricco RAKOTOMALALA 2015, Pratique de la Rgression Linaire Multiple . Diagnostic et
slection de variables. Universit Lumire Lyon 2.
Yves TILLE 2011, Rsum du cours de modles de rgression.
Page | 141