You are on page 1of 141

ANALYSE DE LA REGRESSION

ENSEIGNANT : Mustapha BERROUYNE


INGENIEUR EN CHEF GP
STATISTICIEN DEMOGRAPHE
CHERCHEUR

ROYAUME
DU MAROC
SUPPORT
DE COURS
HAUT COMMISSARIAT AU PLAN
Aspects thorique et pratique
INSTITUT NATIONAL DE STATISTIQUE
ET DECONOMIE APPLIQUEE

2014201

I N S E A , A V E N U E A L L A L A L F A S S I B . P : 6 2 1 5 , R A B A T I N S T I T UPage
T S| 1

Page | 2

TABLE DES MATIERES


CHAPITRE 1. ANALYSE DE LA REGRESSION SIMPLE........................................................................................9
SECTION 1 : ASPECTS THEORIQUES.......................................................................................................................9
1. NOTATIONS ET DEFINITIONS ...........................................................................................................................................9
1.1. La corrlation ..........................................................................................................................................................9

Le coefficient de corrlation linaire .............................................................................................................................10


Interprtation gomtrique du coefficient de la corrlation linaire ..........................................................................11

1.2. La rgression linaire simple ................................................................................................................................12


2. ESTIMATION DES PARAMETRES DU MODELE DE LA REGRESSION LINEAIRE SIMPLE ...................................................13
2.1.
Comment trouver la droite qui passe "au plus prs" de tous les points ?....................................................13
2.2.
La mthode des Moindres Carrs Ordinaires (MCO)...................................................................................13
2.3.
Estimateurs des Moindres Carrs Ordinaires ...............................................................................................14
2.4.
Calcul des estimateurs ...................................................................................................................14
2.5.
Quelques remarques ......................................................................................................................................15
2.6.
Exemple..........................................................................................................................................................15
3. HYPOTHESES DE LA RLS ..............................................................................................................................................16
3.1.
Vraie droite de rgression et droite estime par la rgression ................................................................17
3.2.
A propos des erreurs ......................................................................................................................................18
3.3.
Glissement de la mthode des MCO la rgression .....................................................................................18
3.4.
Hypothses du modle de la rgression linaire simple................................................................................19
4. DECOMPOSITION DE LA VARIANCE ET COEFFICIENT DE DETERMINATION .................................................................19
4.1.
Ce que le modle explique et ce quil nexplique pas ...................................................................................19

Degrs de libert ..............................................................................................................................................................20

4.2.
Coefficient de dtermination..........................................................................................................................21
4.3.
Exemple : Rgression de la taille en fonction du poids ................................................................................21
5. PROPRIETES DES ESTIMATEURS DES MCO ..................................................................................................................22
5.1.
Biais des estimateurs des MCO......................................................................................................................22

Lestimateur b...............................................................................................................................................................22

Lestimateur b...............................................................................................................................................................23
5.2.
Variance des estimateurs des MCO ...............................................................................................................23

5.3.
5.4.
5.5.

Variance de la pente........................................................................................................................................................23
Variance de la constante .................................................................................................................................................23
Covariance des paramtres ............................................................................................................................................23

Convergence des estimateurs des MCO.........................................................................................................24


Remarques sur la prcision des estimateurs .................................................................................................24
Thorme de Gauss-Markov..........................................................................................................................25
Dmonstration du thorme ...........................................................................................................................................25

6. INFERENCE STATISTIQUE ..............................................................................................................................................25


6.1.
Evaluation globale de la rgression ..............................................................................................................25

6.2.
6.3.

Test de significativit globale (tableau danalyse de la variance) ................................................................................25

Exemple : le poids et la taille .........................................................................................................................26


La variance de lerreur : estimation et distribution ......................................................................................27

Estimation de la variance de lerreur ............................................................................................................................28


Thorme. (Estimateur non biais de se2) .................................................................................................................................28

Distribution de la variance de lerreur ..........................................................................................................................28

6.4.

6.5.

Distribution des coefficients estims .............................................................................................................29

Distribution de lestimateur des MCO relatif la pente..............................................................................................29


Distribution de lestimateur des MCO relatif la constante .......................................................................................29

Tests dhypothses sur les paramtres...........................................................................................................30

Test de significativit de la pente ...................................................................................................................................30

Test de significativit de la constante.............................................................................................................................31

Exemple : Test de significativit des paramtres des variables taille et poids............................................................31

Intervalle de confiance des paramtres .........................................................................................................................33


Exemple de la relation entre la taille et le poids ......................................................................................................................33

7.

6.6.
Intervalle de confiance de la droite de rgression.........................................................................................33
PREVISION ET INTERVALLE DE PREVISION .............................................................................................................36
7.1.
Prvision ponctuelle.......................................................................................................................................36
7.2.
Prvision par intervalle..................................................................................................................................36

Variance de lerreur de prvision ..................................................................................................................................37


Quelques remarques .......................................................................................................................................................37
Page | 3

8.

Loi de distribution de lerreur de prvision ..................................................................................................................37


Intervalle de prvision ....................................................................................................................................................38

ANALYSE DES RESIDUS ............................................................................................................................................38


8.1.
Problme de normalit ...................................................................................................................................39
8.1.1.
Examen par les tests statistiques...............................................................................................................................39
8.1.2.
Examen par les graphiques .......................................................................................................................................42

Q-Q Plot ou droite de Henry ..........................................................................................................................................42

Rsidus en fonction de lendogne Y..............................................................................................................................43

Rsidus en fonction de lexogne X ................................................................................................................................43

8.2.
8.2.1.
8.2.2.

8.3.
8.3.1.
8.3.2.

Problme de lautocorrlation .......................................................................................................................43


Dtection des autocorrlations ..................................................................................................................................44
Test de Durbin-Watson .............................................................................................................................................44

Problme de lhtroscdasticit....................................................................................................................45
Analyse par les tests ...................................................................................................................................................45
Analyse par les graphiques........................................................................................................................................47

SECTION 2 : ASPECTS PRATIQUES ........................................................................................................................47


1.

REGRESSION LINEAIRE SIMPLE AVEC SPSS ...........................................................................................................48


1.1.
La corrlation.................................................................................................................................................48
1.1.1.
1.1.2.

1.2.

Nuage de points ..........................................................................................................................................................48


Coefficient de corrlation linaire ............................................................................................................................49

Estimation des paramtres.............................................................................................................................50


En utilisant SPSS (mode syntaxe) ..................................................................................................................................50
En utilisant SPSS (mode interactif) ...............................................................................................................................51

1.3.
Dcomposition de la variance et coefficient de dtermination .....................................................................52
1.4.
Test de significativit globale (Evaluation globale de la rgression) ...........................................................52
1.5.
Tests dhypothses sur les paramtres...........................................................................................................52
2.
REGRESSION LINEAIRE SIMPLE AVEC LA FONCTION DROITEREG DEXCEL ...................................................52
3.
REGRESSION LINEAIRE SIMPLE AVEC LE LOGICIEL R............................................................................................54
3.1.
La corrlation.................................................................................................................................................54
3.1.1.
3.1.2.

3.2.
3.2.1.
3.2.2.
3.2.3.
3.2.4.

Nuage de points ..........................................................................................................................................................54


Coefficient de corrlation linaire ............................................................................................................................54

La rgression linaire simple.........................................................................................................................55


Estimation des paramtres ........................................................................................................................................55
Tests dhypothses sur les paramtres .....................................................................................................................55
Tableau de lanalyse de la variance ..........................................................................................................................55
Test de significativit globale (Evaluation globale de la rgression) ......................................................................55

CHAPITRE 2. ANALYSE DE LA REGRESSION MULTIPLE ................................................................................56


SECTION 1 : ASPECTS THEORIQUES.....................................................................................................................56
1.
2.
3.

4.

5.

6.

7.

8.

INTRODUCTION ..................................................................................................................................................56
NOTATION MATRICIELLE...............................................................................................................................57
HYPOTHESES.......................................................................................................................................................57
3.1.
HYPOTHESES STOCHASTIQUES (de nature probabiliste) .....................................................................57
3.2.
Les hypothses structurelles ..........................................................................................................................58
ESTIMATION DES PARAMETRES...................................................................................................................58
4.1.
Minimisation de la somme des carrs des erreurs ........................................................................................58
4.2.
Ecriture matricielle ........................................................................................................................................58
4.3.
Exemple : consommation des vhicules ........................................................................................................59
4.4.
Quelques remarques sur les matrices............................................................................................................60
INTERPRETATION DES COEFFICIENTS .....................................................................................................................61
5.1.
Coefficient brut ..............................................................................................................................................61
5.2.
Coefficients partiels........................................................................................................................................61
5.3.
Coefficients standardiss ...............................................................................................................................62
PROPRIETES DES ESTIMATEURS ..............................................................................................................................64
6.1.
Biais................................................................................................................................................................64
6.2.
Variance-convergence ...................................................................................................................................65
ESTIMATION DES VARIANCES ..................................................................................................................................66
7.1.
Estimation de la variance de lerreur ............................................................................................................66
7.2.
Estimation de la matrice de variance-covariance des coefficients ...............................................................66
7.3.
Dtails des calculs pour les donnes "Consommation des vhicules".........................................................66
TESTS DE SIGNIFICATIVITE .....................................................................................................................................68
8.1.
Tableau d'analyse de variance et coefficient de dtermination....................................................................68
Page | 4

8.1.1.
8.1.2.
8.1.3.
8.1.4.

8.2.

R corrig ou ajust....................................................................................................................................................68
Coefficient de corrlation linaire multiple .............................................................................................................70
Application aux donnes "Consommation des vhicules"......................................................................................70
Test de signification globale de la rgression ...........................................................................................................71

Test de signification d'un coefficient.............................................................................................................72


Dfinition du test ........................................................................................................................................................72
Application sur la consommation des vhicules ......................................................................................................72

8.2.1.
8.2.2.

INFERENCE SUR LES COEFFICIENTS ........................................................................................................................73


9.1.
Intervalle de confiance...................................................................................................................................73
10. PREDICTION PONCTUELLE ET PAR INTERVALLE ....................................................................................................74
10.1.
Prdiction ponctuelle .....................................................................................................................................74
10.2.
Prdiction par intervalle ................................................................................................................................74
10.3.
Application sur le modle consommation des vhicules .........................................................................75
11. REGRESSIONS AVEC VARIABLES AUXILIAIRES BINAIRES ET FACTICES..................................................................76
12. POINTS ABERRANTS ET POINTS INFLUENTS ............................................................................................................76
12.1.
Dtection.........................................................................................................................................................76
9.

12.1.1.
12.1.2.
12.1.3.
12.1.4.
12.1.5.

Dtection univarie ....................................................................................................................................................77


Dtection multivarie sur les exognes : Force du levier ........................................................................................78
Rsidus studentiss.....................................................................................................................................................80
Rsidus studentiss supprims ..................................................................................................................................82
Autres indicateurs usuels...........................................................................................................................................84

12.2.
Traitement ......................................................................................................................................................89
12.3.
en utilisant le logiciel R ............................................................................................................................90
13. COLINEARITE ET SELECTION DES VARIABLES ........................................................................................................91
13.1.
Dfinition, consquences et illustration de la colinarit.............................................................................91
13.2.
Techniques de dtection.................................................................................................................................92
13.2.1.
13.2.2.
13.2.3.
13.2.4.
13.2.5.
13.2.6.
13.2.7.

13.3.

Test de Klein...............................................................................................................................................................92
Facteur d'inflation de la variance (VIF), tolrance et indice de condition ............................................................93
La tolrance ................................................................................................................................................................93
Indice de condition K.................................................................................................................................................93
Application sur la consommation des vhicules ......................................................................................................94
Test de Farrar & Glauber (multicolinarit)...........................................................................................................95
Cohrence des signes..................................................................................................................................................95

Slection des variables et choix de modle....................................................................................................96

13.3.1.
13.3.2.
13.3.3.
13.3.4.

Slection par optimisation .........................................................................................................................................96


Techniques bases sur le F partiel de Fisher..........................................................................................................101
Rgression Stagewise .........................................................................................................................................108
Coefficient de corrlation partielle et slection de variables ................................................................................110

14. LES REGRESSIONS PARTIELLES .............................................................................................................................114


14.1.
Principe des rgressions partielles...............................................................................................................114
14.2.
Application sur la consommation des vhicules .........................................................................................115
15. REGRESSIONS CROISEES ........................................................................................................................................116
15.1.
Mise en uvre ..............................................................................................................................................116
15.2.
Rgressions croises sur les donnes consommation des vhicules .....................................................118

SECTION 2 : ASPECTS PRATIQUES ...................................................................................................................... 118


1.
2.

EN UTILISANT LE LOGICIEL SPSS.........................................................................................................................118


EN UTILISANT LA FONCTION DROITEREG DU LOGICIEL EXCEL..............................................................128

ANNEXES ...................................................................................................................................................................... 131

Page | 5

Page | 6

Gnralits
Les sciences exactes sont fondes sur la notion de relations rptables, qui peut snoncer ainsi : dans
les mmes conditions, les mmes causes produisent les mmes effets. Notant alors x la mesure des
causes, et y celle des effets, la liaison entre y et x scrit suivant la relation fonctionnelle y = f(x) :
une valeur donne de x correspond une valeur bien dtermine de y.
Or, pour de nombreux phnomnes, une tude exhaustive de tous les facteurs est impossible, cause
de leur grand nombre ou de leur complexit. Il en rsulte que la reproductibilit des conditions, dune
exprience une autre, ne peut tre garantie. Partant de cette constatation, la statistique va permettre
dtendre la notion de relation fonctionnelle rptable, celle de corrlation o la relation entre x et y
est entache dune certaine dispersion due la variabilit des conditions dexprience : on crira
y = f (x) + , o est une variable alatoire.
Le problme est dtudier linfluence de la variable quantitative X sur la variable quantitative Y. La
premire est souvent appele variable explicative (ou encore exogne) et la seconde est appele
variable explique (ou encore endogne). Pour rsoudre ce problme, une exprimentation doit tre
ralise qui consiste prlever un chantillon de n individus, et mesurer sur chacun deux les valeurs
prises par chacune des deux variables. En vue, par exemple, dtudier l'influence du poids dun
individu sur sa taille. Il faut donc observer un chantillon de n couples d'observations (xi, yi) que lon
peut reprsenter sur un graphique, dans le plan R, o chaque point i, dabscisse xi et dordonne yi ,
correspond un couple dobservations. Plusieurs cas peuvent se prsenter.
Les points salignent sur une courbe qui, dans lhypothse la plus simple est une droite. On dit que la
relation entre Y et X est fonctionnelle : lorsque la valeur de X est donne, celle de Y est dtermine sans
ambigut. Cest le cas idal qui, exprimentalement, nest jamais ralis de faon parfaite.

Les mesures sont en effet toujours entaches de quelque imprcision. Les points forment alors un
nuage. Mais celui-ci prsente une orientation qui suggre, par exemple, que lorsque X augmente, la
valeur moyenne de Y augmente galement.

Page | 7

Lorsque X est donn, Y nest pas compltement dtermin : ses valeurs se dispersent autour d'une
certaine valeur moyenne. Mais les valeurs moyennes dcrivent, lorsque X varie, une courbe qui est
appele la ligne de rgression de Y par rapport X : E(Y/X = x) = f(x)
La liaison entre Y et X est alors appele stochastique (ou statistique). Un cas particulirement important
est celui o le nuage se dispose suivant une forme allonge et exhibe une tendance sensiblement
linaire. Cest ce cas de rgression linaire que nous allons nous attacher dans ce support de cours.

Cette condition de linarit nest pas aussi restrictive quil pourrait paratre : une transformation
mathmatique approprie permettra toujours de passer dune ligne de rgression dquation
quelconque une droite de rgression. Si la tendance est, par exemple, de la forme y = b x , il suffira
deffectuer les changements de variable y' = log(y) pour retrouver une relation linaire :
a log(x) + log(b).
Le prsent support de cours est rparti en deux chapitres. Dans le premier chapitre, sera analys le
modle de la rgression linaire simple. Plusieurs notions seront dtailles, savoir : prsentation du
modle, hypothses du modle, estimation des paramtres du modle, proprits des estimateurs, etc.
Le deuxime chapitre, quant lui, sintresse au modle de la rgression linaire multiple. Chaque
chapitre sera scind en deux sections : la premire section abordera les aspects thoriques, par contre la
deuxime section traitera les aspects pratiques en retenant un logiciel statistique (SPSS) et un tableur
(EXCEL).

Page | 8

CHAPITRE 1. ANALYSE DE LA REGRESSION SIMPLE


SECTION 1 : ASPECTS THEORIQUES
1. Notations et dfinitions
Le terme rgression a t introduit par Francis Galton, chercheur britannique du 19me sicle,

dans le clbre article : Regression towards mediocrity in hereditary stature Journal of the
Anthropological Institute 15 : 246-263 (1886) 1 pour dcrire un phnomne biologique. Le
phnomne est que la taille des enfants ns des parents inhabituellement grands (ou petits) se
rapproche de la taille moyenne de la population. Galton a appel ce processus la rgression
vers la moyenne.
Francis Galton 1822-1911

Ltude de la rgression est importante dans la mesure o elle est considre comme la base de laction
de lingnieur. Elle peut servir contrler, prvoir et dcider. La rgression est la mthode la plus
utilise pour deux raisons majeures :
- cest une mthode ancienne ;
- cest l'outil de base de la plupart des modlisations plus sophistiques comme la rgression

logistique, le modle linaire gnralis, les mthodes de traitement des sries temporelles,
et surtout des modles conomtriques, etc.
1.1. La corrlation
La notion de corrlation a t invente par PEARSON2. La corrlation est un indice de la force d'une
relation linaire ou linarise (aprs transformation) entre deux ou plusieurs variables.
Lorsque deux variables ont une volution commune, nous disons quils sont corrls . La
corrlation simple mesure le degr de liaison existant entre ces deux phnomnes reprsents par des
variables.
Nous pouvons distinguer la corrlation linaire, lorsque tous les points du couple de valeurs (xi,yi) des
deux variables semblent aligns sur une droite, de la corrlation non linaire lorsque le couple de
valeurs se trouve sur une mme courbe dallure quelconque.
Deux variables peuvent tre :
en corrlation positive ; on constate alors une augmentation (ou diminution, ou constance)
simultane des valeurs des deux variables ;
en corrlation ngative, lorsque les valeurs de lune augmentent, les valeurs de lautre diminuent ;

galton.org/essays/1880-1889/galton-1886-jaigi-regre ssion-stature.pdf.
Karl Pearson (27 mars 185727 avril 1936), mathmaticien britannique, est un des fondateurs de la statistique moderne.
Il est aujourd'hui principalement connu pour avoir dvelopp le coefficient de corrlation et le Test du .
2

Page | 9

non corrles, il ny a aucune relation entre les variations des valeurs de lune des variables et les
valeurs de lautre.
Le tableau 1, en croisant les critres de linarit et de corrlation, renvoie une reprsentation
graphique.
On dispose donc dun chantillon de n couples d'observations (xi, yi) que lon peut reprsenter sur un
graphique, dans un plan de deux dimensions, o chaque point i, dabscisse xi et dordonne yi,
correspond un couple dobservations. Ce graphique sappelle nuage des points associant x et y.
Plusieurs cas peuvent se prsenter.
Les points salignent sur une courbe qui, dans lhypothse la plus simple est une droite. On dit que la
relation entre Y et X est fonctionnelle : lorsque la valeur de X est donne, celle de Y est dtermine
sans ambigut. Cest le cas idal qui, exprimentalement, nest jamais ralis de faon parfaite.
Tableau 1. Linarit et corrlation
Corrlation Corrlation
Absence
positive
ngative
de corrlation
Graphe 1
Graphe 2
Graphe 5
Relation linaire
Graphe 3
Graphe 4
Graphe 5
Relation non linaire

Les mesures sont en effet toujours entaches de quelque imprcision. Les points forment alors un
nuage. La liaison entre Y et X est alors appele stochastique (ou statistique). Un cas particulirement
important est celui o le nuage se dispose suivant une forme allonge et exhibe une tendance
sensiblement linaire. Cest ce cas de rgression linaire que nous allons nous attacher dans ce
chapitre.
Cette condition de linarit nest pas aussi restrictive quil pourrait paratre : une transformation
mathmatique approprie permettra toujours de passer dune ligne de rgression dquation
quelconque une droite de rgression.

Le coefficient de corrlation linaire


La reprsentation graphique ne donne quune impression de la corrlation entre deux variables sans
donner une ide prcise de lintensit de la liaison, cest pourquoi nous calculons une statistique
appele coefficient de corrlation linaire simple, not rx,y . Il est gal :
r, =

X X(Y y)

X X Y Y

Cov(X, Y)
s s
Page | 10

avec :
Cov(X,Y) = covariance entre X et Y ; X et Y = cart type de x et cart type de Y ; n = nombre
dobservations.
On peut dmontrer que, par construction ce coefficient reste compris entre 1 et 1 :
proche de 1, les variables sont corrles positivement ;
proche de 1, les variables sont corrles ngativement ;
proche de 0, les variables ne sont pas corrles.

Interprtation gomtrique du coefficient de la corrlation linaire

Les deux sries de valeurs X(x, , x) et Y(y, , y)peuvent tre considres comme des vecteurs

dans un espace n dimensions. Remplaons-les par des vecteurs centrs : X(x x, , x x)et
Y(y y, , y y).

Le cosinus de l'angle entre ces vecteurs est donn par la formule suivante (produit scalaire norm) :
(x x)(y y)
cos() =
(x x) (y y)
Donc () = , ce qui explique que est toujours compris entre -1 et 1.

Le coefficient de corrlation nest autre que le cosinus de l'angle entre les deux vecteurs centrs.
Si r = 1, langle = 0, les deux vecteurs sont colinaires (parallles).
Si r = 0, langle = 90, les deux vecteurs sont orthogonaux.
Si r = -1, langle vaut 180, les deux vecteurs sont colinaires de sens oppos.
Plus gnralement : a = )(, o arccos est la rciproque de la fonction cosinus.

Bien sr, du point de vue gomtrique, on ne parle pas de corrlation linaire : le coefficient de
corrlation a toujours un sens, quelle que soit sa valeur entre -1 et 1. Il nous renseigne de faon prcise,
non pas tant sur le degr de dpendance entre les variables, que sur leur distance angulaire dans
lhypersphre n dimensions.
Dans la pratique, ce coefficient est rarement trs proche de lune de ces trois bornes et il est donc
difficile de proposer une interprtation fiable la simple lecture de ce coefficient. Ceci est surtout vrai
Page | 11

en conomie o les variables sont toutes plus au moins lies entre elles. De plus, il nest calcul qu
partir dun chantillon dobservations et non pas sur lensemble des valeurs. On appelle x,y ce
coefficient empirique qui est une estimation du coefficient vrai rX,Y. La thorie des tests statistiques
nous permet de lever cette indtermination.
Soit tester lhypothse H0 : rX,Y = 0 , contre lhypothse H1 : rX,Y 0 .
Sous lhypothse H0, nous pouvons dmontrer que

r,

( r
, )

suit une loi de Student n-2 degr de

liberts3. Nous calculons alors une statistique, appel le t de Student empirique : t =

r,

(r
,)

Nous calculons la valeur absolue du t empirique et nous procdons au test par comparaison avec la
valeur lue directement dans la table.
a/

Si t > t valeur lue dans une table de Student au seuil = 0,05 (5 %) n 2 degrs de libert4,
nous rejetons lhypothse H0, le coefficient de corrlation est donc significativement diffrent de 0;
dans le cas contraire, lhypothse dun coefficient de corrlation nul est accepte. La loi de Student
tant symtrique,
1.2. La rgression linaire simple
La rgression linaire simple a pour objectif dtudier la dpendance, sous forme linaire, entre deux
grandeurs. Lexemple classique de la taille (Y) dun individu en fonction de son poids (X) est illustr
ci-dessous par un chantillon de 20 personnes.
Figure 3. Taille X Poids

Dun point de vue pratique, le but de cette rgression est double :


ajuster un modle pour expliquer la taille en fonction poids ;
prdire les valeurs de la taille pour de nouvelles valeurs des poids.
Le graphique ci-dessus montre que les points du nuage sont approximativement aligns sur une droite
(y = a x + b) une erreur prs. Taille = b + b Poids + erreur.

3
4

La notion de degrs de libert est explicite dans les paragraphes suivants.


Si le nombre dobservations n est suprieur 30, on peut approximer la loi de Student par une loi normale, soit t/2 1,96.
Page | 12

La variable Taille (Y) est appele la variable "rponse", ou selon les domaines disciplinaires, variable
expliquer, ou encore variable dpendante. La variable Poids (X) est la variable "rgresseur", encore
appele variable explicative, ou variable indpendante. b est lordonne lorigine.
Ceci dit, un modle de rgression linaire simple est dfini par une quation de la forme :
" i {1, , n} y = b + b x+

Les quantits viennent du fait que les points ne sont jamais parfaitement aligns sur une droite. On
les appelle les erreurs (ou bruits) et elles sont supposes alatoires.
2. Estimation des paramtres du modle de la rgression linaire simple
2.1. Comment trouver la droite qui passe "au plus prs" de tous les points ?

Pour trouver la droite qui passe "au plus prs" de tous les points il faut se donner un critre dajustement.
Cette faon de faire consiste projeter les points M1 M4 paralllement laxe des Y. Sur la droite on
obtient les points P1 P4, comme le montre la figure n2 suivante.
Figure n2. Projection des points M1, , M4 sur la droite

Y = 1 + X +
2

Le critre retenu pour dterminer la droite D passant au plus prs de tous les points sera tel que :
La somme des carrs des carts (SCE) des points observs Mi la droite solution soit minimum.

La droite solution sera appele droite de rgression de Y sur X. Le critre est le critre des Moindres
Carrs Ordinaires (MCO, Ordinary Least Squares en anglais), appel aussi par les statisticiens
critre de norme L . Les carts sont calculs en projetant les points M5 paralllement laxe des Y.
2.2. La mthode des Moindres Carrs Ordinaires (MCO)

Les points (xi, yi) tant donns, le but est maintenant de trouver une fonction affine f telle que la
quantit Ly f(x)soit minimale. Pour pouvoir dterminer f, encore faut-il prciser la
fonction de cot L. Deux fonctions sont classiquement utilises :
- le cot absolu L(u) = |u| ;
- le cot quadratique L(u) = u2.
Les deux ont leurs vertus, mais on privilgiera dans la suite la fonction de cot quadratique. On parle
alors de mthode destimation par moindres carrs6.

On pourrait aussi projeter les points M paralllement laxe des X, on aurait alors une autre droite solution (rgression de
X sur Y). Dans ces deux rgressions Y et X ne jouent pas le mme rle.
6
Terminologie due Legendre dans un article de 1805 sur la dtermination des orbites.
Page | 13

2.3. Estimateurs des Moindres Carrs Ordinaires

On appelle estimateurs des Moindres Carrs Ordinaires 1 et 2 les valeurs minimisant la quantit :
S(, ) = (y x)

Autrement dit, la droite des moindres carrs minimise la somme des carrs des distances verticales des
points (xi, yi) du nuage la droite ajuste y = 1 + 2 x.
2.4. Calcul des estimateurs 

La fonction de deux variables S est une fonction quadratique et sa minimisation ne pose aucun
problme. En effet, cette fonction S(1, 2) est strictement convexe, donc elle admet un minimum en
un unique point (1 et 2), lequel est dtermin en annulant les drives partielles de S. On obtient les
"quations normales" :

La premire quation donne :


(1) o x
et y sont les moyennes des xi et des yi.

do

Cette quation montre que la droite passe par le point (x, y).
La seconde quation donne :

et en remplaant par son expression (1), nous avons :

Cov(X, Y)
Var(X)

(2)

Pour vrifier quil sagit bien dun minimum, on doit montrer que la matrice hessienne des drives
secondes est dfinie positive. Cette matrice vaut :

On a,

(,)

= 2n,

(,)

S(, ) S(, )


=
S(, ) S(, )

= 2 x , et

La matrice hessienne vaut donc :

(,)

= 2 x.

x 
n
= 2 
x x

Et peut scrire H = 2X'X, o

Page | 14

Pour tout vecteur u R2, les formes quadratiques uHu peuvent scrire 2vv en posant v = Xu.
Comme vv est toujours positif, la matrice H est dfinie positive.
2.5. Quelques remarques

- Autre criture de lestimateur de la pente. Il y a une relation directe entre l'estimateur de la pente
= Cov(X,Y) = rxy sX sY = rxy sY = r Y
et le coefficient de corrlation linaire de Pearson ryx. b
2
xy

Var(X)
s

2
X

Nous le verrons dans la partie infrentielle, tester la significativit de la pente revient tester la
significativit de la corrlation entre Y et X.

- Erreur et rsidu. est l'erreur inconnue introduite dans la spcification du modle. Nous avons
alors estim les paramtres 1 et 2 partir de l'chantillon et nous appuyant sur le principe des
moindres carrs. Nous pouvons obtenir la valeur prdite de l'endogne Y pour l'individu i avec :
y = y(x) = + x

On peut on dduire lerreur observe, appele "rsidu" de la rgression.


e = y y

La distinction "erreur/rsidu" est importante car, comme nous le verrons par la suite, les expressions de
leurs variances ne sont pas les mmes.
Toujours concernant le rsidu, notons une information importante : e = 0

La somme (et donc la moyenne) des rsidus est nulle dans une rgression avec constante. En effet :
e = y + x= ny n nx = ny nx ny x= 0

- Centre de gravit du nuage de points. La droite de rgression avec constante passe forcment par
le centre de gravit du nuage de points. En effet : y(x) = + x
= x
+ (y x
) = y .
2.6. Exemple

Dans cet exemple, nous disposons de n = 20 observations. On cherche expliquer Y la taille de 20


objets (en cm), partir de leurs poids (en kg). L'objectif est de modliser le lien travers une relation
linaire.
Poids (X)

Taille (Y)

Poids (X)

Taille (Y)

Poids (X)

Taille (Y)

Poids (X)

Taille (Y)

46
78
85
85
85

152
158
160
162
158

85
95
95
100
100

159
165
165
166
159

100
103
105
105
115

166
168
163
164
168

115
115
130
135
150

166
162
165
167
172

Lestimation des paramtres du modle peut se faire laide dun tableur comme EXCEL. Comme elle
peut tre obtenu en utilisant des logiciels statistiques, comme SPSS, SAS, etc7.

Voir section 2 : aspects pratiques de la rgression linaire simple.


Page | 15

a. Estimation avec un tableur


Le tableau suivant prsente le dtail des calculs relatif lestimation des paramtres du modle de la
rgression simple laide dun tableur (EXCEL).
Tableau 1. Les calculs de base de la rgression linaire simple
Taille (Y)

46

152

-55,35 -11,25

622,69

3 063,62

78

158

-23,35 -5,25

122,59

545,22

85

160

-16,35 -3,25

53,14

267,32

85

162

-16,35 -1,25

20,44

267,32

85

158

-16,35 -5,25

85,84

267,32

85

159

-16,35 -4,25

69,49

267,32

95

165

-6,35

1,75

11,11

40,32

95

165

-6,35

1,75

11,11

40,32

100

166

-1,35

2,75

3,71

1,82

100

159

-1,35

-4,25

100

166

-1,35

2,75

103

168

1,65

4,75

105

163

3,65

-0,25

105

164

3,65

0,75

2,74

13,32

115

168

13,65

4,75

64,84

186,32

115

166

13,65

2,75

37,54

186,32

115

162

13,65

-1,25

130

165

28,65

1,75

50,14

820,82

135

167

33,65

3,75

126,19

1 132,32

172

48,65

8,75

425,69

2 366,82

1 647,25

9 672,55

150
=

Yi -
(Xi -
) x (Yi -
) (Xi -
)
Xi -

Poids (X)

Pente = b =

=
= 101,35

,
,

= 163,25

5,74
-

3,71
7,84

0,91

17,06

1,82
1,82
2,72
13,32

186,32

= ,

b
= ,
Constante = b =

3. Hypothses de la RLS

Jusqu'ici, on ne s'est appuy que sur des calculs algbriques, sans faire appel des notions de
statistique. On ne cherchait que la droite d'ajustement sur l'chantillon. En dautres termes, aucune
supposition n'a t ncessaire dans toutes les dmonstrations.
Si maintenant, on souhaite utiliser les rsultats obtenus partir des observations, vues comme un
chantillon, pour infrer sur la population, il faut faire appel des notions de probabilit, et de statistique
puisque dans les relevs de donnes (exemple : Poids et Taille) notre disposition on n'a qu'un chantillon
de valeurs et non toute la population.
Sur la figure suivante, on remarque que pour une mme valeur du Poids, par exemple 85, il y a plusieurs
valeurs possibles de la Taille (158, 159, 160 et 162). Il n'y a pas de valeur unique associe une valeur Xi
mais une distribution de valeurs.

Page | 16

Figure 3. Taille en fonction du poids

Pour chaque valeur du poids (X) existe une distribution thorique des tailles (Y). Les valeurs de
centrage sont les esprances des tailles de la population correspondant chaque poids Xi. Lesprance
(moyenne thorique i) de chaque distribution de Y, est appele statistiquement parlant l'esprance
de Yi sachant Xi que l'on note E(Yi/Xi). L'hypothse de la rgression linaire est que les i sont
aligns sur la vraie droite de rgression qui est inconnue. Pour simplifier l'criture on note E(Yi) au lieu
de E(Yi/Xi), soit : = ( = )b + b 

Figure 4. Distributions de Y pour X fix

Pour un mme poids X1 fix on a une distribution de taille Y1, dont on a observ une ralisation y1, ou
plusieurs. Par exemple sur le graphique Taille*Poids de la figure 3, on remarque que pour X=46 on a
une seule valeur observe Y=152, tandis que pour X=85 on observe plusieurs valeurs de Y (158, 159,
160 et 162).
Chaque Yi est une variable alatoire qui a une distribution de probabilit de Yi sachant Xi note
p(Yi/Xi). Des hypothses sur la rgularit de ces distributions devront tre faites :
- les distributions, pour tous les points Xi, sont supposes normales ;
- les esprances des distributions sont centres sur la droite de rgression ;
- les variances de chaque Yi conditionnellement Xi sont toutes gales.
3.1. Vraie droite de rgression et droite estime par la rgression

La figure 4 ci-dessus, montrant les distributions de Y pour X fix, est une illustration du modle de
rgression linaire. Toujours en supposant que le modle linaire postul est le vritable modle, on
Page | 17

obtiendrait la vraie droite de rgression (/ = )( = )b + b, si on avait notre disposition

toute la population. Comme on n'a qu'un chantillon d'observations, on n'a qu'une estimation

Y = b + b X = b + b X ou droite estime par la rgression.

3.2. A propos des erreurs

L'erreur thorique i reprsente l'cart entre Yi observ et l'esprance E(Yi) non observable. On notera
que i nest pas observable, et ce qui est observable cest lerreur ei correspondant lcart entre Yi
, son estimation par le modle.
observ et Y
Le rsidu observ ei est une estimation de lerreur inobservable i.
3.3. Glissement de la mthode des MCO la rgression

Historiquement la mthode des moindres carrs d'abord t dveloppe par LEGENDRE en 1805,
pour rpondre la question suivante pose par les astronomes : "Comment combiner des observations
effectues dans des conditions diffrentes, afin d'obtenir les meilleures estimations possibles de
plusieurs grandeurs astronomiques ou terrestres lies entre elles par une relation linaire?". Ces
grandeurs sont mesures par des instruments imparfaits, et par des observateurs qui ne sont pas tous
identiques. Il y a des erreurs de mesures dans les observations. De l provient le vocabulaire :
observation, cart, erreur ou rsidu.
Galton inventeur de la "rgression" et PEARSON inventeur de la "corrlation" appliqurent
l'ajustement des moindres carrs des donnes sociales dans les annes 1980.
En 1885 GALTON ralisa le tableau qui croise la taille de 928 enfants (devenus adultes) ns de 203
parents, en fonction de la taille moyenne de leurs parents. En prsentant ce tableau sous forme dun
graphique, GALTON remarqua que lon pouvait voir des ellipses de densits. Si les parents sont plus
grands que la moyenne, les enfants seront galement plus grands que la moyenne mais avec une taille
plus proche de la moyenne que celle de leurs parents. Si les parents sont de petites tailles, leurs enfants
seront galement plus petits que la moyenne, mais avec une taille plus proche de la moyenne que celle
de leurs parents. Il y a rgression vers la moyenne. Do le terme de rgression . Ce n'est que vers
les annes 1930 que le formalisme de la mthode des moindres carrs associ une interprtation
probabiliste est devenu la Rgression .
Le glissement des mthodes d'analyse, des erreurs en Astronomie vers des estimations de moyennes en
Sciences Sociales, a conduit appeler erreur ou perturbation ou encore ala, l'cart de Y par rapport
sa moyenne.
Le modle s'crit : y = b + b x+ o les erreurs sont des alas indpendants desprance =

0 et de variance s.

Le terme tient un rle trs important dans cette rgression. Il permet de rsumer toute l'information
qui n'est pas prise en compte dans la relation linaire que l'on cherche tablir entre Y et X, cest
dire les problmes de spcifications, l'approximation par la linarit. Comme nous le verrons plus bas,
les proprits des estimateurs reposent en grande partie sur les hypothses que nous formulerons
propos de 8.

En pratique, aprs avoir estim les paramtres de la rgression, les premires vrifications portent sur l'erreur calcule sur
les donnes (on parle de "rsidus") lors de la modlisation.
Page | 18

3.4. Hypothses du modle de la rgression linaire simple

Comme dj soulign, les quantits viennent du fait que les points ne sont jamais parfaitement
aligns sur une droite. On les appelle les erreurs (ou bruits) et elles sont supposes alatoires. Pour
pouvoir dire des choses pertinentes sur ce modle, il faut nanmoins imposer des hypothses les
concernant.
Ces hypothses psent sur les proprits des estimateurs (biais, convergence) et linfrence statistique
(distributions des coefficients estims).
H1 : Hypothses sur Y et X. X et Y sont des grandeurs numriques mesures sans erreur. X est une
donne exogne dans le modle, connue sans erreur. Elle est suppose non alatoire. Y est alatoire
par l'intermdiaire de c.--d. la seule erreur que l'on a sur Y provient des insuffisances de X
expliquer ses valeurs dans le modle. Autrement dit, Y est attach dune erreur additive
(Ymesur = Yvrai + ) et il existe en moyenne une relation linaire entre X et Y ; E(Y/X=x) = f(x) =
b + b 

H2 - Hypothses sur le terme alatoire . Les i sont i.i.d (indpendants et identiquement distribus).
H2.a - E(i) = 0, en moyenne les erreurs s'annulent c'est--dire le modle est bien spcifi.
H2.b - V(i) = e , la variance de l'erreur est constante et ne dpend pas de l'observation. C'est
l'hypothse d'homoscdasticit.
H2.c - En particulier, l'erreur est indpendante de la variable exogne c.--d. COV (xi, i) = 0
H2.d - Indpendance des erreurs. Les erreurs relatives 2 observations sont indpendantes c.--d.
COV(i,j) = 0. On parle de "non auto-corrlation des erreurs".
H2.e - i N(0, e ). L'hypothse de normalit des erreurs est un lment cl pour l'infrence
statistique.

4. Dcomposition de la variance et coefficient de dtermination


4.1. Ce que le modle explique et ce quil nexplique pas

A partir de lquation de la droite de rgression (modle retenu), on peut pour tout point i d'abscisse
calculer son estimation (ordonne) y
+b
xi = y b
x + b
xi avec b = y b x;
y = b
1
2
2
2

ce qui donne : yi y= b(x x)

(I)

En un point i lcart ou rsidu est : y y = (y y) (y y) ; On lve les deux quantits au

carr et on somme les observations i : (y y) = (y y) + (y y) 2 (y


y)(y y)
En utilisant la formule (I) : (y y) = (y y) + (y y) 2b (y y)(x x
Or b =

Cov(X,Y)
Var(X)

(
)(
)
(
)

(y y) = (y y) + (y y) 2b (x x) ; Ou encore

(y y) = (y y) + (y y) 2 [b (x x)] ; Ou bien
(y y) = (y y) + (y y) 2 [y y]

Page | 19

On aboutit enfin lgalit fondamentale :


(y y) = (y y) + (y y) ; SCT = SCE + SCR

(II)

Comment interprter ces quantits ?


- SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y c.--d. l'information
disponible dans les donnes.
- SCE est la somme des carrs expliqus. Elle indique la variabilit explique par le modle c'est-dire la variation de Y explique par X.
- SCR est somme des carrs rsiduels. Elle indique la variabilit non-explique (rsiduelle) par le
modle cest dire l'cart entre les valeurs observes de Y et celles prdites par le modle.
La formule (II) montre que les variations de Y autour de sa moyenne, cest--dire SCT peuvent tre
expliques par le modle via SCE et ce qui ne peut tre expliqu par le modle, est contenu dans
SCR.
Deux situations extrmes peuvent survenir :
- Dans le meilleur des cas, SCR = 0 et donc SCT = SCE : les variations de Y sont compltement
expliques par celles de X. On a un modle parfait, la droite de rgression passe exactement par tous
les points du nuage (y = yi).
- Dans le pire des cas, SCE = 0 : X n'apporte aucune information sur Y. Ainsi, y = y, la meilleure
prdiction de Y est sa propre moyenne.
A partir de ces informations, nous pouvons produire le tableau suivant d'analyse de variance.
Tableau 3. Tableau d'analyse de variance (ANOVA)
Modle

ANOVAb
Somme des carrs ddl Moyenne des carrs

1 Rgression

SCE

Rsidu

SCR

n-2

Total

SCT

n-1

MCE=SCE/1

Sig.

MCE/MCR

MCR=SCR/n-2

Abrviations :
- ddl : degrs de libert. Ils vrifient : ddltotal = ddlmodle + ddlerreur ;
- Moyenne des carrs : rapport somme des carrs (SC/ddl), relatif soit au modle soit lerreur ;
- D : rapport des MCE et MCR ;
- Sig. : Signification du test.

Degrs de libert
Les degrs de libert peuvent tre vu de diffrentes manires. La dfinition la plus accessible est de les
comprendre comme le nombre de termes impliqus dans les sommes (le nombre d'observations) moins
le nombre de paramtres estims dans cette somme.
Ainsi :
- Nous avons besoin de l'estimation de la moyenne y pour calculer la somme SCT (n-1).

- Nous avons besoin des coefficients estims bet b pour obtenir la projection y et former la SCR

(n-2).

- Concernant la SCE, le plus simple est de l'obtenir par dduction, cest dire (n 1) (n 2) = 1.
Page | 20

4.2. Coefficient de dtermination

Il est possible de dduire un indicateur synthtique partir de l'quation d'analyse de variance. C'est le
coefficient de dtermination R2. R =

= 1

R varie entre 0 et 1. Il indique la proportion de variance de Y explique par le modle.


- Plus il sera proche de la valeur 1, meilleur sera le modle, la connaissance des valeurs de X permet de
deviner avec prcision celle de Y.
- Lorsque R est proche de 0, cela veut dire que X n'apporte pas d'informations utiles (intressantes)
sur Y, la connaissance des valeurs de X ne nous dit rien sur celles de Y.

- On dmontre que R2 reprsente aussi le carr du coefficient de corrlation linaire entre Y et Y


estim : R = Corr(y, y)
4.3. Exemple : Rgression de la taille en fonction du poids

b. avec un tableur
Le tableau suivant prsente le dtail des calculs relatif la dcomposition de la variance laide du tableur
EXCEL.

Tableau 4. Dcomposition de la variance Taille/poids


(

27,56

15,81

1,62

160,47

10,56

7,75

0,22

267,32

160,47

1,56

7,75

2,35

85,84

267,32

160,47

27,56

7,75

6,08

69,49

267,32

160,47

18,06

7,75

2,15

11,11

40,32

162,17

3,06

1,17

8,02

11,11

40,32

162,17

3,06

1,17

8,02

3,71

1,82

163,02

7,56

0,05

8,88

1,82

163,02

18,06

0,05

16,16

1,82

163,02

7,56

0,05

8,88

2,72

163,53

22,56

0,08

19,97

13,32

163,87

0,06

0,39

0,76

2,74

13,32

163,87

0,56

0,39

0,02

4,75

64,84

186,32

165,57

22,56

5,40

5,88

13,65

2,75

37,54

186,32

165,57

7,56

5,40

0,18

162

13,65

-1,25

186,32

165,57

1,56

5,40

12,78

130

165

28,65

1,75

50,14

820,82

168,13

3,06

23,81

9,79

135

167

33,65

3,75

126,19

1 132,32 168,98

14,06

32,84

3,92

150

172

48,65

8,75

425,69

2 366,82 171,54

76,56

68,64

0,22

1 647,25

9 672,55

399,75

280,53

119,22

SCT

SCE

SCR

)
(Xi -

122,59

545,22

159,27

-16,35 -3,25

53,14

267,32

162

-16,35 -1,25

20,44

85

158

-16,35 -5,25

85

159

-16,35 -4,25

95

165

-6,35

1,75

95

165

-6,35

1,75

100

166

-1,35

2,75

100

159

-1,35

-4,25

100

166

-1,35

2,75

103

168

1,65

4,75

105

163

3,65

-0,25

105

164

3,65

0,75

115

168

13,65

115

166

115

Xi -

(Xi -
) x (Yi -
)
Yi -

Poids (X)

Taille (Y)

46

152

-55,35 -11,25

622,69

78

158

-23,35 -5,25

85

160

85

= 101,35

Pente = b =

= = = 163,25

= ,

b
= ,
Constante = b =

5,74
-

3,71
7,84

0,91

17,06

3 063,62 153,82 126,56

88,85

3,33

R = 280,53/399,75=0,702
Page | 21

5. Proprits des estimateurs des MCO


Deux proprits importantes sont mises en avant dans l'valuation d'un estimateur. (1) Est-ce qu'il est sans
biais, c'est--dire est-ce qu'en moyenne nous obtenons la vraie valeur du paramtre ? (2) Est-ce qu'il est
convergent c'est--dire mesure que la taille de l'chantillon augmente, l'estimation devient de plus en plus
prcise ?
5.1. Biais des estimateurs des MCO

Thorme 1. (Estimateurs sans biais)


b et b sont des estimateurs sans biais9 de b et b.

Lestimateur b
Concernant b , il y a deux tapes principalement dans la dmonstration : dans un premier temps, il faut
exprimer b en fonction de b; dans un deuxime temps, en passant l'esprance mathmatique, il faut
souhaiter que tout ce qui ne dpend pas de b devienne nul, en s'appuyant sur les hypothses dj tablies
au paragraphe 3.4.
Soit y = b + b x+ (5.1)

Nous pouvons calculer : y = (b1 + b xi + i ) = nb1 + b2 x+ e , soit :


Formons la diffrence de (1) et (2) :

y = b + b x+ e (5.2)

y = b + b x+


(1) (2)
y = b + b x+ e

y y = b(x x) + ( e)

(. )

(
)(
)
Or b =
(5.4) ; (5.33) dans (5.4)
(
)

(
)[b2 (xi x)+(i e )]
) (xi x)(i e )
b (
b =
= 2
(
)

(
)

(x x)(i e )
b = b2 + i
(
)

=b +
ei (x x) = 0 ; do b
2

(xi x)i

(
)

(5.5)

Enfin, il faut dmontrer que la partie aprs l'addition de (6) est nulle en passant l'esprance mathmatique.
Nous devrons introduire les hypothses adquates pour ce faire.

E(b) = E b2 +

(xi x)i

= b2 +

((
)

(xi x)

(
)

E(i ) = b2 , puisque E() = 0

Conclusion : L'estimateur des moindres carrs ordinaires (EMCO) est sans biais, si et seulement si les
deux hypothses suivantes sont respectes :
1. (H1) L'exogne X n'est pas stochastique (X est non alatoire) ;
2. (H2.a) E(i) = 0, l'esprance de l'erreur est nulle.

On dit que q est un estimateur sans biais de si E[q] = .

Page | 22

Lestimateur b
En procdant de la mme manire, nous avons :
b = y bx; y = b + bx; (5.6) ; (5.6) = (5.2) b + b x+ e = b + bx

b = b + (b b)x+ e (5.7)

Sous les mmes hypothses, on a :

E(b) = b + x(b E(b)) = b

5.2. Variance des estimateurs des MCO

Thorme 2. (Variance et covariance)


Les variances des estimateurs des MCO sont respectivement :

(b) = e ( +

) ; (b) =

(
)

(
)

e

,b

Tandis que leur covariance vaut : b


=

(
)

Variance de la pente
On part nouveau de lexpression de b, relation (5.5) dj tablie:
(xi x)i

b = b2 +

(x x)

Or les erreurs i sont non corrles et de mme variance e , donc la variance de la somme est la somme des
variances :

(
)
b=

[ (
)]

(
)

(5.8)

Variance de la constante
On part nouveau de lexpression de b, quation (7) dj tablie :

V(b) = V(b + (b b)x+ e ) = xVb+ V(e ) 2 Cov(b, e )

(
)(ee)
(
)e

Covb, e= E e =
=0 ;

Do : (b) =

)
((

( (
)

+ e = e ( +

Covariance des paramtres

(
)

(
)

(5.9)

Covb, b= covy bx, b= Covy, b xVb= 0 x


(
(
)
)
Puisque Covy, b= Cov , = e = 0 ;

soit b, b=


e

(
)

(
)

(5.10)

(
)

(
)

Page | 23

5.3. Convergence des estimateurs des MCO

Thorme 3.
Les estimateurs des MCO sont convergents10.

b=

(
)

- e est une valeur qui ne dpend pas de n, c'est la variance de l'erreur dfinie dans la population.

- lorsque n , on constate que (x x) . En effet, c'est une somme de valeurs toutes positives
ou nulles.

Nous pouvons donc affirmer que b est un estimateur convergent de b, parce que : Vb 0

De mme pour b : nous avons(b) =

e +

(
)

et

Vb 0
n

Pour dmontrer la convergence des estimateurs de la rgression linaire simple, deux hypothses ont t
introduites, savoir :
- (H2.b) : E(e) = V(ei ) = se . C'est l'hypothse d'homoscdasticit.

- (H2.d) COV(ij) = E(ij) = 0. C'est l'hypothse de non-autocorrlation des erreurs.


5.4. Remarques sur la prcision des estimateurs

En sintressant aux formules de la variance produites dans ci-dessus, nous remarquons que les estimateurs
seront d'autant plus prcis, les variances seront d'autant plus petites, que :
- La variance de l'erreur est faible, c'est--dire la rgression est de bonne qualit ;
- La dispersion des X est forte c'est--dire les points recouvrent bien l'espace de reprsentation ;
- Le nombre d'observations n est lev.
Nous pouvons illustrer ces remarques laide des graphiques de la figure suivante :
Figure 5. Quelques situations caractrisant linfluence de la variance de la pente

E(e) = se est faible


Vb est faible

E(e) = se est lev


Vb est moyennement leve par la

valeur leve de ( x x
)

E(e) = se est faible

( x x) est faible

10

Un estimateur q sans biais de est convergent si

Vq 0
n

Page | 24

5.5. Thorme de Gauss-Markov

Parmi les estimateurs sans biais linaires en y de la rgression, les estimateurs MCO sont variance
minimale, cest dire il n'existe pas d'autres estimateurs linaires sans biais prsentant une plus petite
variance. Les estimateurs des MCO sont BLUE (best linear unbiased estimator). On dit qu'ils sont
efficaces.

Dmonstration du thorme
Pour la pente, on part nouveau de lexpression de b, quation (4) dj tablie, lestimateur des MCO
(
(
)(
)
)
scrit b =
= = py avec p =
(
)

(
)

)
(

(
)

Considrons un autre estimateur b linaire en yi et sans biais, cest--dire :

b = ly = l(b + bx+ e)

Montrons que l = 0 et lx = 1

Lgalit E(b) = b l + b lx+ lE(e) est vrai pour tout b. Lestimateur b est sans
biais donc E(b) = b pour tout b, c'est--dire que l = 0 et lx = 1.
Montrons que V(b) V(b):

V(b) = V(b b + b) = V(b b) + Vb+ 2 Cov(b b, b)

)
l (
Or Cov(b b, b) = Cov(b b) Vb= e

lx

(
)

e x l

(
)

( x x)
( x x)

e 1 e x 0
e
=

=0
( x x)
( x x)

Do : V(b) = V(b b) + V(b) ;

Par ailleurs, la variance est toujours positive, donc : V(b) V(b)


On obtiendrait la mme chose pour la constante b.

6. Infrence statistique

6.1. Evaluation globale de la rgression

Dans la section 4, la dcomposition de la variance a t faite et le coefficient de dtermination R pour


valuer la qualit de l'ajustement a t calcul. Le R2 indiquait dans quelle proportion la variabilit de
Y pouvait tre explique par X. En revanche, il ne rpond pas la question : est-ce que la rgression
est globalement significative ? En d'autres termes, est-ce que X emmne significativement de
l'information sur Y, reprsentative d'une relation linaire relle dans la population, et qui va au-del
des simples fluctuations d'chantillonnage ?
Un autre point de vue est de considrer le test d'valuation globale comme un test de significativit du
R2 : dans quelle mesure s'carte-t-il rellement de la valeur 0 ?

Test de significativit globale (tableau danalyse de la variance)


On reprend ci-aprs le modle du tableau danalyse de la variance (ANOVA).

Page | 25

Modle

ANOVAb
Somme des carrs ddl Moyenne des carrs

1 Rgression

SCE

MCE=SCE/1

Rsidu

SCR

n-2

Total

SCT

n-1

Sig.

MCE/MCR

MCR=SCR/n-2

Pour tester la significativit globale de la rgression, nous nous basons sur la statistique F :

= =

(6.1)

La statistique F indique si la variance explique est significativement suprieure la variance


rsiduelle. Dans ce cas, on peut considrer que l'explication emmene par la rgression traduit une
relation qui existe rellement dans la population.
Le test se prsente comme suit :
: Variance explique = Variance rsiduelle

: Variance explique > 

Le test de F est considr comme un test de significativit du coefficient de dtermination dans la


mesure o il peut scrire en fonction du R. En effet, =

c. Distribution Sous H0

( )
( )

Sous H0, SCE est distribu selon (1) et SCR selon (n-2). Donc F

c()

c()

()

(6.2)

(1, n 2)

Sous H0, F est donc distribu selon une loi de Ficher) (1,n-2) degrs de libert.

La rgion critique (R.C.) du test, correspondant au rejet de H0, au risque est dfinie pour les valeurs
anormalement leves de F c'est--dire :

d. Distribution Sous H0

. . : F > (1, n 2)

Dans la plupart des logiciels de statistique11, on fournit directement la probabilit critique (p-value) ,
qui correspond la probabilit que la loi de Fisher dpasse la statistique calcule F.
Ainsi, la rgle de dcision au risque devient :

6.2. Exemple : le poids et la taille

. . : a < a

Revenons notre exemple de la relation entre la taille et le poids de la personne.

e. En utilisant un tableur
Le tableau suivant prsente le dtail des calculs relatif lestimation des paramtres du modle de la
rgression simple laide du tableur EXCEL.
Le tableau suivant prsente le dtail des calculs relatif la dcomposition de la variance laide du tableur
EXCEL.

11

Comme SPSS.
Page | 26

Tableau 5. Dcomposition de la variance Taille/poids

152

Yi -
(Xi -
) x (Yi -
) (Xi -
)
Xi -

-55,35 -11,25

622,69

3 063,62

153,82

)
126,56

(

)

)
3,33

78

158

-23,35

-5,25

122,59

545,22

159,27

27,56

15,81

1,62

85

160

-16,35

-3,25

53,14

267,32

160,47

10,56

7,75

0,22

85

162

-16,35

-1,25

20,44

267,32

160,47

1,56

7,75

2,35

85

158

-16,35

-5,25

85,84

267,32

160,47

27,56

7,75

6,08

85

159

-16,35

-4,25

69,49

267,32

160,47

18,06

7,75

2,15

95

165

-6,35

1,75

11,11

40,32

162,17

3,06

1,17

8,02

95

165

-6,35

1,75

11,11

40,32

162,17

3,06

1,17

8,02

100

166

-1,35

2,75

3,71

1,82

163,02

7,56

0,05

8,88

100

159

-1,35

-4,25

1,82

163,02

18,06

0,05

16,16

100

166

-1,35

2,75

1,82

163,02

7,56

0,05

8,88

103

168

1,65

4,75

2,72

163,53

22,56

0,08

19,97

105

163

3,65

-0,25

13,32

163,87

0,06

0,39

0,76

105

164

3,65

0,75

2,74

13,32

163,87

0,56

0,39

0,02

115

168

13,65

4,75

64,84

186,32

165,57

22,56

5,40

5,88

115

166

13,65

2,75

37,54

186,32

165,57

7,56

5,40

0,18

115

162

13,65

-1,25

186,32

165,57

1,56

5,40

12,78

130

165

28,65

1,75

50,14

820,82

168,13

3,06

23,81

9,79

135

167

33,65

3,75

126,19

1 132,32

168,98

14,06

32,84

3,92

172

48,65

8,75

425,69

2 366,82

171,54

76,56

68,64

0,22

1 647,25

9 672,55

399,75

280,53

119,22

SCT

SCE

SCR

Poids (X)

Taille (Y)

46

150

=

= 101,35

Pente = b =

= = = 163,25

5,74
-

3,71
7,84

0,91

17,06

= ,

b
= ,
Constante = b =

88,85

Tableau danalyse de variance


Source

S.C

ddl

C.M

Explique

280,53

280,53

Rsiduelle

119,22

18

Totale

399,75

Fcalcul

19
0,95
42,354
(1,18)

6,623

4,41

Voici le dtail des calculs :


- Nous avions expliqu prcdemment l'obtention des SCT, SCE et SCR.
- Nous rorganisons les valeurs pour construire le tableau d'analyse de variance. Nous en dduisons les
carrs moyens expliqus MCE = SCE/1 = 280,53/1= 280,53 et les carrs moyens rsiduels :
MCR = SCR/(n-2 = 20)-2 = 119,22 /18 = 6,623
- Nous en dduisons la statistique de test F = MCE/MCR = 280,53 / 6,623 = 42,354
- Que nous comparons au quantile d'ordre (1 ) de la loi (1, n 2). Pour = 5%, elle est gale :
0,95 (1,18) = 4,41. Nous concluons que le modle est globalement significatif au risque 5%. La relation
linaire entre Y et X est reprsentatif d'un phnomne existant rellement dans la population.
6.3. La variance de lerreur : estimation et distribution

Page | 27

Dans R (espace des variables xi et yi), b est lordonne lorigine et b la pente de la droite ajuste
(figure suivante). Cette droite minimise la somme des carrs des distances verticales des points du
nuage la droite ajuste. Notons y = + x lordonne du point de la droite des moindres carrs
dabscisse xi, ou valeur ajuste. les rsidus sont dfinis par (figure ?) :

(6.3)
Par construction, la somme des rsidus est nulle :

Figure 6. Reprsentations des couples (xi,yi)

Il est noter que les variances et covariance des estimateurs b et b tablies prcdemment ne sont
pas pratiques car elles font intervenir la variance inconnue e des erreurs. Nanmoins, on peut en
donner un estimateur sans biais grce aux rsidus.

Estimation de la variance de lerreur


Thorme. (Estimateur non biais de se )

La statistique
e =
Preuve.

est un estimateur sans biais de e .

Rcrivons les rsidus en constatant que :

(6.4)

En dveloppant et en nous servant de lcriture vue plus haut :

(6.5)

Nous avons :
En dveloppant lesprance mathmatique de (I), on a :
CQFD.

Distribution de la variance de lerreur

On sait par hypothse que

se

N(0, 1) . Comme est une ralisation de , il vient :

Page | 28

N(0, 1)

se

(6.6)

En passant au carr, nous avons un (1). En sommant les termes, nous obtenons :

=
s
e

s
e

c() (6.7)

En se rfrant lestimateur de la variance de lerreur, on a :


s

6.4. Distribution des coefficients estims

s
e

c()

(6.8)

Distribution de lestimateur des MCO relatif la pente

(
)(
)
Rappelons lestimation de la pente : b =

(6.9)

(
)

X est non stochastique, Y l'est par l'intermdiaire du terme d'erreur . Nous introduisons l'hypothse
selon laquelle : i N(0, e ).
De fait, y = b + b x+ suit aussi une loi normale, et b tant une combinaison linaire des yi, il
vient :

b b2
sb

N(0, 1)

(6.10)

Rappelons la variance de lestimateur des MCO de la pente.


b = sb =

(6.11)

(
)

Or, on ne dispose pas dune estimation de la variance de l'erreur e . Pour obtenir une estimation
calculable sur un chantillon de donnes de l'cart-type du coefficient b , on doit produire une
b

estimation de l'cart type de l'erreur e . La variance estime s'crirait alors :


b = s

b =

On divise lquation (6.12) par (6.11), on obtient :


s

(
)

(6.12)

= e , en reprenant lquation (6.8), nous dduisons : s = e


e

c( )

(6.13)

Pour la pente de lestimation des MCO, la distribution de la pente pour l'infrence statistique est la loi
de Student (n2) degrs de libert.

(b b)

() En effet, si on divise lquation (6.10) par la

racine carr de (6.13) (composante gauche), on obtient cette distribution (quation (6.14)).
(b b)

(b b)

(,)

c
( )

= ()

(6.14)

Distribution de lestimateur des MCO relatif la constante


De manire analogue, pour la constante estime b, on a :
Page | 29

(bb)

(bb)

(,)

c
()

= ()

(6.15)

En effet, rappelons lestimation de la constante : b = y bx

De fait, y = b + b x+ suit aussi une loi normale, et b tant une combinaison linaire des yi, il
vient :

bb
b

N(0, 1)

(6.16)

Rappelons la variance de lestimateur des MCO de la pente.

(b) = e +

La variance estime s'crirait alors :

(b ) =

e +

On divise lquation (6.18) par (6.17), on obtient :


s

s
b

(
)

(
)

(6.17)

(6.18)
s

= et en reprenant lquation (6.8), nous dduisons : s = e


e

c( )

(6.19)

Si on divise lquation (6.16) par la racine carr de (6.19) (composante gauche), on obtient cette
distribution. Soit :
(bb)

(bb)

(,)

c
()

= ()

6.5.Tests dhypothses sur les paramtres

Test de significativit de la pente


Le test de significativit de la pente, un seuil =5 %, consiste vrifier l'influence relle de l'exogne
X sur l'endogne Y.
H b = 0

Les hypothses confronter s'crivent :
H b 0
Nous savons que

bb
s
b

suit une loi de Student n 2 degrs de libert.

Sous H0 (b = 0) le ratio appel ratio de Student

suit donc une loi de Student n 2 degrs de

libert. Le test dhypothses bilatral consiste donc comparer le ratio de Student empirique
b

t = t b = la valeur du t a de Student12 lue dans la table (n 2) degrs de libert13 et

pour un seuil de probabilit = 5%, soit si (n 2) > 30, t a,


= 1,96 . Si t > t a,
= 1,96,

12
13

La table de Student tabule pour les tests bilatraux se trouve en annexe de ce support.
Si le degr de libert est suprieur 30, la loi de Student peut tre approxime par une loi normale.

Page | 30

nous rejetons lhypothse H0 (graphique 7), le coefficient thorique et inconnu b est significativement
diffrent de 0.

Graphique 7. Test bilatral 5%

La rgion critique du rejet de H0 au risque scrit : . . :t b > t a

Ou bien . . : a < a

Avec a la probabilit critique (p-value) qui correspond la probabilit que la loi de Student dpasse la
statistique calcule t.
O t a est le quantile dordre (1- /2) de la loi de Student.

Test de significativit de la constante


Le test de significativit de la pente consiste vrifier l'influence relle de l'exogne X sur l'endogne
H b = 0

Y. Les hypothses confronter s'crivent :
H b 0
La statistique de test, dfinie comme dans 6.21, suit une loi de student (n-2) de grs de libert.
t b =

(6.21)

La rgion critique du rejet de H0 au risque scrit : . . :t b > t a

O t a est le quantile dordre (1- /2) de la loi de Student. Il sagit aussi dun test bilatral.

Exemple : Test de significativit des paramtres des variables taille et poids


Pour cela, on construit la feuille pour les calculs intermdiaires (Figure 6).

- Nous calculons les projections pour chaque individu de l'chantillon. Pour le 1er individu, nous
avons : y = b + b x = 145,99 + 0,1703 152 = 153,82

- Nous en dduisons le rsidu (ex. = y y = 152 153,82 = 1,82), que nous passons au
carr (ex. = (1,82) = 3,33).
- Nous ralisons la somme des rsidus au carr, soit

SCR = e = 3,33 + 1,62 + + 0,22 = 119,22


Page | 31

Tableau 6. Calculs intermdiaires pour les tests relatifs la pente

Poids (X) Taille (Y)

46

152

78

158

85

160

85

162

85

158

85

159

160,47 160,47 -

95

165

162,17

95

165

162,17

100

166

163,02

100

159

100

166

163,02 163,02

103

168

163,53

105

163

105

164

163,87 163,87

115

168

165,57

115

166

165,57

115

162

130

165

165,57 168,13 -

135

167

150

172

1,82
1,27
0,47
1,53
2,47
1,47
2,83
2,83
2,98
4,02
2,98
4,47
0,87
0,13
2,43
0,43
3,57
3,13
1,98
0,46

153,82 159,27 160,47 160,47

168,98 171,54

3,33
1,62
0,22
2,35
6,08
2,15
8,02
8,02
8,88
16,16
8,88
19,97
0,76
0,02
5,88
0,18
12,78
9,79
3,92
0,22

)
(Xi -
3 063,62
545,22
267,32
267,32
267,32
267,32
40,32
40,32
1,82
1,82
1,82
2,72
13,32
13,32
186,32
186,32
186,32
820,82
1 132,32
2 366,82

SCR = 119,22

9 672,55

A ce niveau, nous obtenons lestimation de la variance de lerreur, soit :


s
e =

SCR
119,22
=
= 6,623
n2
18

Lcart-type estim de lerreur correspond la racine carre. se = 6,623 = 2,53

Pour obtenir l'estimation de l'cart-type de la pente, nous avons besoin de la somme des carts la
moyenne au carr des X, c'est--dire (x x) = 3 063,62 + 545,22 + + 2 366,82 = 9 672,55
b =
Nous avons alors :

)
(

,
=
,

Nous formons la statistique de test : t =

, = ,

,
,

= 6,50

Au risque =5%, le seuil critique pour la loi de Student (n-2) degrs de libert pour un test bilatral
est t a = 2,1009. Puisque |6,50| > 2,1009, nous concluons que la pente est significativement non

nulle au risque 5%.

Si nous tions passs par le calcul de la p-value, nous aurions obtenu14 ' = 0,000004. Puisque ' < ,
nous rejetons de mme lhypothse nulle.
Nous formons aussi la statistique de test pour la constante du modle comme suit : t =

14

En utilisant la fonction du tableur Excel LOI.STUDENT(ABS(6,50) ;18 ;2). Le paramtre 2 pour spcifier que nous
souhaitions obtenir la p-value pour un test bilatral.
Page | 32

Nous avons alors :


b =
e +
n

t =

|,|
,

x2

i (xi x)

= 53,79

1
20

= 6,623 +

(101,35)
=
9 672,55

7,36 = 2,71

Au risque =5%, le seuil critique pour la loi de Student (n-2) degrs de libert pour un test bilatral
est t a = 2,1009. Puisque |53,79| > 2,1009, nous concluons que la constante est significativement

non nulle au risque 5%.

Si nous tions passs par le calcul de la p-value, nous aurions obtenu15 '=2,455107974304810000000E-21.
Puisque ' < , nous rejetons de mme lhypothse nulle.

Intervalle de confiance des paramtres


Toujours parce que la distribution de b est dfinie sur tout l'intervalle de dfinition de b, nous
pouvons construire des intervalles de variation (ou intervalle de confiance) au niveau de confiance
(1). Elle est dfinie par : b t a x s
b

Pour la constante, nous avons lquation suivante : b t a x


b

Exemple de la relation entre la taille et le poids


Reprenons la pente du fichier "Taille/poids". Nous disposons de toutes les informations ncessaires
pour produire l'intervalle de confiance au niveau 95% :
b t a x s
b ; b + t a x
b

[0,170 2,1009 x 0,03; 0,170 + 2,1009 x 0,03]


[0,115; 0,225]

Le rsultat est cohrent avec le test de significativit de la pente, l'intervalle de confiance ne contient
pas la valeur 0.
Pour la constante du modle, lintervalle de confiance au niveau 95% est :
[140,29; 151,69]

6.6. Intervalle de confiance de la droite de rgression

Les coefficients formant le modle sont entaches d'incertitude, il est normal que la droite de
rgression le soit galement. L'objectif dans ce paragraphe est de produire un intervalle de confiance
de la droite de rgression.
Partant du fait que notre objectif est de modliser au mieux les valeurs de Y en fonction des valeurs
prises par X c'est--dire / = E[Y/X]. Dans la rgression linaire, on fait l'hypothse que la relation
est linaire. / = b + b x

Pour un individu donn, nous obtenons l'estimation de sa moyenne conditionnelle :


/ = b + b x
m
15

En utilisant la fonction du tableur Excel LOI.STUDENT(ABS(6,51) ;18 ;2). Le paramtre 2 pour spcifier que nous
souhaitions obtenir la p-value pour un test bilatral.
Page | 33

Et l'estimation de la variance de cette moyenne conditionnelle estime s'crit :

(xi
)

/=
e +

(
)

Enfin, la moyenne conditionnelle estime suit une loi de Student (n 2) degrs de liberts.
Tous ces lments nous permettent de construire l'intervalle de confiance au niveau (1) de la droite
de rgression :

Lexpression +

(
)

(
)

b + b x t a x s
e +

(
)

(
)

est appele levier de l'observation i dans la littrature16. Il tient une place

trs importante dans la rgression, notamment dans la dtection des points aberrants (atypiques).
Intervalle de confiance de la droite des variables "taille et poids"
Nous formons la feuille Excel de calcul permettant de calculer les bornes infrieures et suprieures de
la droite de rgression (lesprance de Y pour une valeur de X donne) au niveau 95% (tableau 7).
Tableau 7. Calculs pour lintervalle de confiance 95% de la droite de rgression Taille/Poids

Poids (X)

Taille (Y)

46

152

153,82

78

158

159,27

85

160

160,47

85

162

160,47

85

158

160,47

85

159

160,47

95

165

162,17

95

165

162,17

100

166

163,02

100

159

163,02

100

166

163,02

103

168

163,53

105

163

163,87

105

164

163,87

115

168

165,57

115

166

165,57

115

162

165,57

130

165

168,13

135

167

168,98

150

172

171,54

= ,

= 163,25

1,82
1,27
0,47
1,53
2,47
1,47
2,83
2,83
2,98
4,02
2,98
4,47
0,87
0,13
2,43
0,43
3,57
3,13
1,98
0,46

3,33
1,62
0,22
2,35
6,08
2,15
8,02
8,02
8,88
16,16
8,88
19,97
0,76
0,02
5,88
0,18
12,78
9,79
3,92
0,22

SCR= 119,22

)
(Xi -

Borne inf

Borne sup

3 063,62

150,60

157,04

545,22

157,54

161,01

267,32

158,98

161,95

267,32

158,98

161,95

267,32

158,98

161,95

267,32

158,98

161,95

40,32

160,93

163,41

40,32

160,93

163,41

1,82

161,83

164,21

1,82

161,83

164,21

1,82

161,83

164,21

2,72

162,34

164,72

13,32

162,67

165,08

13,32

162,67

165,08

186,32

164,18

166,97

186,32

164,18

166,97

186,32

164,18

166,97

820,82

166,18

170,08

1 132,32

166,81

171,15

2 366,82

168,65

174,42

9 672,55

b = , ; b = ,

Lintervalle de confiance de la droite de rgression se matrialise par deux lignes courbes, des
hyperboles, comme le montre le graphique 1 suivant. Dans la rgression simple, la reprsentation
16

Pour plus de dtails, voir paragraphe 8 analyse des rsidus de ce support.


Page | 34

graphique est trs intuitive (Graphique 1). Il y a 95% de chances que la droite soit comprise entre les
deux courbes orange et rouge. En dautres termes, le centre de la cloche des 95 chances sur 100 de se
trouver entre ces deux bornes.
Graphique 1. Reprsentation de l'intervalle de confiance
95% de la droite (Taille/Poids)
180
175

Taille (en cm)

170
165
160
155

y = 0.170x + 145.9
R = 0.701

150
145
140
45

60

75

90

105

120

135

150

Poids (en kg)


Borne sup

Nuage des points

Borne inf

Linaire (Nuage des points)

Concernant la largeur de lintervalle de confiance, il importe de souligner les remarques suivantes :


) ;
- La largeur varie en fonction de (Xi-X

- La largeur est minimum au point Xi =


X ; c'est--dire que la prcision est la meilleure, au centre de
gravit du nuage des points.
- La largeur crot lorsquon sloigne du centre de gravit. La prcision est la plus mauvaise aux
extrmits du nuage des points.

On peut retrouver facilement ce graphique en utilisant le logiciel R. Comment ?


La syntaxe et les rsultats de cet exercice se prsentent comme suit :
> droite=lm(taille~poids,data=donnes)
> pred=predict(droite,interval="confidence")
> pred
> qplot(donnes$poids,donnes$taille) +
geom_abline(intercept=coef(droite)[1],slope=coef(droite)[2],color="red")+
geom_point(aes(x=donnes$poids,y=fitted(droite)),col="red",lwd=4)+
geom_ribbon(aes(ymin=pred[,2],ymax=pred[,3]),alpha=0.3,fill="green")
fit
lwr
upr
1 153.8238 150.5495 157.0982
2 159.2735 157.5100 161.0369
3 160.4656 158.9590 161.9721
4 160.4656 158.9590 161.9721
5 160.4656 158.9590 161.9721
6 160.4656 158.9590 161.9721
7 162.1686 160.9102 163.4270
8 162.1686 160.9102 163.4270
9 163.0201 161.8088 164.2314
10 163.0201 161.8088 164.2314
11 163.0201 161.8088 164.2314
12 163.5310 162.3186 164.7434
13 163.8716 162.6460 165.0972
14 163.8716 162.6460 165.0972
15 165.5746 164.1516 166.9976
16 165.5746 164.1516 166.9976
17 165.5746 164.1516 166.9976
18 168.1291 166.1435 170.1147
19 168.9806 166.7706 171.1907
Page | 35

20 171.5352 168.6000 174.4704

7. Prvision et intervalle de prvision

Un des buts de la rgression est de faire de la prvision, cest--dire de prvoir la variable expliquer y
en prsence dune nouvelle valeur de la variable explicative x. Pour un nouvel individu donn, partir
de la valeur de lexogne X, nous voulons connatre la valeur que prendrait lendogne Y.
7.1. Prvision ponctuelle

Pour un nouvel individu i*, qui n'appartient pas l'chantillon de donnes ayant particip
l'laboration du modle, connaissant la valeur de xi*, on cherche obtenir la prvision y On applique
directement l'quation de rgression : y = y(x ) = b + b x

On peut vrifier facilement que la prvision est sans biais c'est--dire E[y ] = y .

Pour ce faire, on forme l'erreur de prdiction e = y y et on montre qu'elle est d'esprance nulle.
e = y y = y b + b x 

= b + b x + e b + b x

soit e = b b b b x + e (7.1) ; en passant lesprance mathmatique,

nous avons :

E e = E b b b b x + e = E b b x E b b + E(e ) = 0

= E b b x E b b + E(e )
=0

Cette esprance est nulle si l'on se rfre aux hypothses et aux rsultats des moindres carrs
ordinaires.
En effet, les estimateurs b et b sont sans biais (E(b) = b et E(b) = b), et l'esprance de l'erreur
est nulle. E [e] = 0. Par consquent, la prvision est non biaise c'est--dire : E[y ] = y
7.2. Prvision par intervalle

Page | 36

Une prdiction ponctuelle est intressante. Mais nous ne savons pas quel degr de confiance nous
pouvons lui accorder. Il est donc plus intressant de s'intresser un intervalle de prdiction
(fourchette de prvision) en lui associant une probabilit de recouvrir la vraie valeur yi.
Pour construire la fourchette, nous avons besoin de connatre d'une part la variance de l'erreur de
prdiction et, d'autre part, sa loi de distribution.

Variance de lerreur de prvision


Puisque l'erreur de prdiction est non biaise cest dire E[=0], nous savons que V( ) = E[ ].
Pour calculer la variance, nous devons donc dvelopper et calculer son esprance.
Reprenons lquation (7.1) : e = b b b b x + e

Nous obtenons la variance de lerreur de prvision en sappuyant sur le fait que y est fonction de
e seulement tandis que y est fonction des autres erreurs 1 i n :
V(e ) = Vy y = Vy + Vy = se + V(y );

Calculons le second terme : V(y ) = Vb + b x = Vb+ x Vb+ 2 x Cov(b, b)

En remplaant les variances et la covariance des coefficients par leurs expressions de (5.8) (5.10) et
et connaissant V(i*) = se , nous avons :

V(y ) = e +
V(y ) =

Ou encore :

+ x

(
)

+ e

(
)

V(e ) = s
e 1 + +

2 x

(
)

= e +

)
(

(
)

e

(
)

(
)



(
)

(7.2)

Quelques remarques
La variance sera d'autant plus petite, et par consquent la fourchette d'autant plus troite, que :
-s
e est faible, c'est--dire la rgression est de bonne qualit.

- n est lev, c'est--dire la taille de l'chantillon ayant servi la construction du modle est lev.
- (x
) est faible, c'est--dire l'observation est proche du centre de gravit du nuage de points (en
abscisse, sur l'axe des X). De fait, l'intervalle de prvision s'vase mesure que x s'loigne de x.

- La somme (
) est leve, c'est--dire la dispersion des points ayant servi la construction
du modle est grande, ils couvrent bien l'espace de reprsentation. En ralit, c'est surtout le rapport
)
(

(
)

qui joue.

Loi de distribution de lerreur de prvision


Pour dfinir la loi de distribution de l'erreur de prdiction, nous devons nous rfrer l'hypothse de
gaussienne du terme d'erreur dans le modle de rgression N(0, e ). De fait,

se

se

(0,1)

Page | 37

Lorsque l'on passe l'estimation de la variance de l'erreur s


e , linstar de ce que nous avions tabli
lors de la dfinition de la distribution des coefficients estims ( 6.4), sachant que :
(n 2)

s
e

c() nous pouvons crire (remarquez bien l'adjonction du "chapeau" sur le ) :

s
e

t ()

Intervalle de prvision
Nous disposons d'une prdiction non biaise, de la variance et de la loi de distribution, nous pouvons
ds lors dfinir l'intervalle de prdiction au niveau de confiance (1 ) :

y t a x s
e (1 + +

degrs de libert.

(
)

(
)

) o t a est le quantile dordre 1 de la loi de student (n-2)

8. Analyse des rsidus

Nous avons vu dans les paragraphes prcdents que lestimation des paramtres du modle linaire
simple, par les MCO, ncessitait quun certain nombre dhypothse de base sur les rsidus soit vrifi :
lhypothse de normalit, dhomoscdacticit et de non autocorrlation. Ici, on va lever toutes ces
hypothses et on va les tester.
Le diagnostic de la rgression l'aide de l'analyse des rsidus, peut tre ralis avec des tests
statistiques, mais aussi avec des outils graphiques simples.
En effet, lanalyse des rsidus, ei = yi - yi, peut servir doutil pour dterminer si le modle de rgression
estim est appropri, cest dire que les hypothses qui sous - tendent linfrence sur lestimateur des
MCO sont satisfaites.
Nous avons identifi dans le paragraphe 3 les cinq hypothses de base sur le terme derreur :
1. Moyenne zro : E() = 0 E(y) = b + b x.
2.
3.
4.
5.

Indpendance : chaque i est une ralisation indpendante de xi et de tout xj, i j.


Non-autocorrlation : chaque i est une ralisation indpendante de tout j, j i.
Homoscdasticit (variance constante) : se = se i.
Normalit : la distribution de suit une loi normale ; e N(0, se ) "i

La figure suivante donne une illustration de ces 5 hypothses :

E(y) = b + b x

Une violation des hypothses 1 et 2 biaise lestimateur des MCO (donc E(b) b) et E(b) b).

Page | 38

Une violation des hypothses 3 5 ne biaise pas lestimateur mais invalide les mthodes infrentielles
que nous avons dvelopps ci-dessus.
Prcdemment, on a not e = Y b b X les termes derreur alatoire dune rgression. Ces

termes permettent de dtecter des dfaillances dans le modle mais ils ne peuvent pas tre calculs
puisquils dpendent de b et b inconnus. Cest pourquoi on introduit les rsidus eou e

e = e = Y b b X , qui dpendent de l'chantillon. Ce sont des estimateurs convergents (on dit

aussi consistants) des erreurs e .De plus, on a accs des ralisations des ei en utilisant l'chantillon de
donnes.

On ne peut dterminer la valeur des rsidus quaprs avoir effectu une rgression, mais on les utilise
souvent pour vrifier les hypothses de la rgression. Il existe diffrents types de rsidus : rsidus
simples (ou non standardiss), rsidus standardiss, rsidus studentiss, etc (tableau suivant) :
Type de
rsidus
Rsidus
simples

Rsidus
standardiss

Formules de calcul

Descriptions

e = e = y y

Ces rsidus sont les plus faciles calculer et sont souvent donns par
les logiciels de rgression. Ils sexpriment dans la mme unit que la
variable Y. Ils permettent ventuellement de reprer une valeur
atypique mais ce ne sont pas les meilleurs pour cet objectif car ils
nont pas la mme variance et sont donc difficilement comparables.

r =

h =

s
e

; avec

)
1
(X X
+
)
n (X X

Ces rsidus sont sans unit. Ils sont centrs et rduits, c'est--dire
moyenne nulle et variance gale 1.

8.1. Problme de normalit

Une grande partie de l'infrence statistique (exemple test de pertinence globale de la rgression,
prdiction par intervalle, etc.) repose sur l'hypothse de distribution normale N(0, se ) du terme d'erreur
de l'quation de rgression. Vrifier cette hypothse semble incontournable pour obtenir des rsultats
exacts.
8.1.1. Examen par les tests statistiques
Pour examiner la normalit des rsidus, nous allons retenir trois tests statistiques: tests de
Kolmogorov-Smirnov, de Shapiro-Wilk et de Jarque-Bera.

Test de Kolmogorov-Smirnov
Formulation

Page | 39

Soit X1,,Xn i.i.d. de fonction de rpartition F. On souhaite tester lhypothse H0 : les Xi suivent
une loi normale, contre lhypothse H1 : "les Xi ne suivent pas une loi normale". On note
= x ; S = (x X
)
X

Le test de normalit de Kolmogorov-Smirnov utilise la statistique de test : T = Sup F(x) FX,S2(x)


, S2 .
O F,(x) est la fonction de rpartition de la loi normale NX

Le test consiste rejeter lhypothse de normalit pour de grandes valeurs de Tn.


Application sur les donnes de la taille - poids
En utilisant le logiciel SPSS, la procdure pour dfinir ce test est comme suit :

Conclusion : Puisque la p-value (0,200) est > =5%, lhypothse de la normalit des rsidus est
accepte.

Test de Shapiro-Wilk

Formulation
Soit X1,,Xn i.i.d. de loi N(0,1) et X(1) X(n) lchantillon ordonn.
Soit = (E(X(1)), , E(X(n)))'. Soit B la matrice de covariance du vecteur (X(1), ,X(n)) .
Le test de Shapiro-Wilk pour tester lhypothse de normalit des Xi est bas sur la statistique de test :
( aX() )
s
(aBa)
SW =
=
)(aBa) (x X
)
(X X

Avec (a, , a) = (a a)/

La zone de rejet est de la forme (SW c,a ). Les ai sont tabuls, ce qui permet de calculer
facilement SW, les quantiles (c,a) sont galement tabuls.
Application sur les donnes de la taille - poids

Avec le logiciel SPSS, la procdure pour dfinir ce test est le mme que celle du test de KolmogorovSmirnov.

Page | 40

Conclusion : Puisque la p-value (0,427) est > =5%, lhypothse de la normalit des rsidus est
accepte.
Avec le logiciel R, la syntaxe et les rsultats se prsentent comme suit :

> donnes=read.spss("taillepoids.sav",to.data.frame=TRUE)

> attach(donnes)
> estimation=lm(taille~poids)
> rsidus=estimation$residuals
> shapiro.test(rsidus)
Shapiro-Wilk normality test
data: rsidus
W = 0.95373, p-value = 0.4274
La p-value de ce test tant plus grande que 0,05, nous dcidons de ne pas rejeter lhypothse nulle, et
de fait, de dcider que les rsidus suivent bien une loi normale.

Test de Jarque-Bera

Formulation
Le test de normalit de Jarque-Bera17 est fond sur les coefficients d'asymtrie S et d'aplatissement K.
Pour une distribution normale, le coefficient dasymtrie est ncessairement nul. De mme pour une
loi normale, le coefficient daplatissement est gal 3. Le test de normalit consiste donc tester
conjointement :
: =&= 3  
Les coefficients d'asymtrie et d'aplatissement de Pearson se prsentent comme suit :
m
- = s O S est le moment centr d'ordre 3, et l'cart-type. On sait que S est gal 0 si la
distribution est normale. ;
m
- = s O K le correspond au rapport entre le moment dordre 4 et lcart-type lev la puissance
4. On sait que K est gal 3 si la distribution est normale.
On propose les estimateurs :
s=

(
)

; k =

))
( (

(
)

))
( (

La statistique de test propose par Jarque-Bera est la suivante :

JB = n +
17

()

o n est la taille de lchantillon (nombre dobservations).

Ce test ne devient rellement intressant que lorsque les effectifs sont levs.
Page | 41

Sous , la statistique JB ca ().


Si JB ca (), H0 rejete au risque a. Les rsidus ne suivent pas une loi normale.
Si JB < ca (), H0 acepte au risque a.
Pour un risque =5%

c() = KHIDEUX. INVERSE(5%; 2) = 5,991

Application sur les donnes de la taille - poids

Le dtail des calculs de ce test est rsum par le tableau suivant :


-

Somme
Somme/n

eps
1,82
1,27
0,47
1,53
2,47
1,47
2,83
2,83
2,98
4,02
2,98
4,47
0,87
0,13
2,43
0,43
3,57
3,13
1,98
0,46
0,00
0,0000

eps
3,326285
1,621699
0,216756
2,354475
6,079036
2,147896
8,016909
8,016909
8,879846
16,161147
8,879846
19,971983
0,759688
0,016486
5,882489
0,180952
12,777878
9,791509
3,922960
0,216068
119,22
5,9610

eps
-6,066515
-2,065168
-0,100915
3,612777
-14,988289
-3,147892
22,699194
22,699194
26,461116
-64,969314
26,461116
89,254843
-0,662144
0,002117
14,267295
0,076974
-45,676005
-30,638988
-7,769995
0,100435
29,55
1,4775

0,102

k
JB =

1,853
1,302

eps
11,064175
2,629907
0,046983
5,543553
36,954677
4,613456
64,270831
64,270831
78,851666
261,182681
78,851666
398,880114
0,577125
0,000272
34,603671
0,032744
163,274168
95,873642
15,389612
0,046685
1 316,96
65,8479

5,99

Conclusion : Puisque la statistique JB (1,302) est < ca () = , , lhypothse de la normalit des


rsidus est accepte.
8.1.2. Examen par les graphiques

Le diagnostic graphique est un outil puissant pour valider une rgression. Il fournit un nombre
important d'informations que les indicateurs statistiques apprhendent mal. Deux graphiques peuvent
tre utiliss afin dattester de la normalit des rsidus. Il sagit de la droite de Henri et de
lhistogramme.

Q-Q Plot ou droite de Henry

Prsentation
Le graphique Q-Q plot (quantile-quantile plot) est un graphique "nuage de points" qui vise confronter
les quantiles de la distribution empirique et les quantiles d'une distribution thorique normale, de
moyenne et d'cart type estims sur les valeurs observes. Si la distribution est compatible avec la loi
normale, les points forment une droite. Dans la littrature francophone, ce dispositif est appel Droite
de Henry.
Concrtement, il s'agit de :
1. trier les rsidus e de manire croissante pour former la srie x(i) ;

2. produire la fonction de rpartition empirique, lisse en accord avec la loi normale F =

,
,

3. calculer les quantiles thoriques normalises z(i) en utilisant la fonction inverse de la loi normale
centre rduite ;
Page | 42


4. dduire les quantiles thoriques d-normalises x(
e z(i) + x.
) = s

Application sur les donnes de la taille-poids

Le tableau et le graphique suivant donne Q-Q Plot des rsidus(courbe de Henry).


Lanalyse de la courbe de Henry montre que le nuage des points est presque align. Ce qui prouve que
lhypothse de normalit des rsidus nest pas rejete.

Xbar
STD

x(i)
-4,02
-3,57
-3,13
-2,47
-1,98
-1,82
-1,47
-1,27
-0,87
-0,47
0,13
0,43
0,46
1,53
2,43
2,83
2,83
2,98
2,98
4,47

F(i)
0,0309
0,0802
0,1296
0,1790
0,2284
0,2778
0,3272
0,3765
0,4259
0,4753
0,5247
0,5741
0,6235
0,6728
0,7222
0,7716
0,8210
0,8704
0,9198
0,9691

z(i)
-1,868
-1,403
-1,128
-0,919
-0,744
-0,589
-0,448
-0,315
-0,187
-0,062
0,062
0,187
0,315
0,448
0,589
0,744
0,919
1,128
1,403
1,868

x*(i)
-4,680
-3,515
-2,826
-2,302
-1,864
-1,477
-1,122
-0,788
-0,468
-0,155
0,155
0,468
0,788
1,122
1,477
1,864
2,302
2,826
3,515
4,680

0,000
2,505

Droite de Henry -- Q-Q PLOT


5.0
4.0
3.0

Quintiles thoriques

i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

-5.0

2.0
1.0
0.0
-4.0

-3.0

-2.0

-1.0

0.0

1.0

2.0

3.0

4.0

5.0

-1.0
-2.0
-3.0
-4.0
-5.0

Quintiles empiriques

Rsidus en fonction de lendogne Y


Ce type de graphique permet de se rendre compte de la qualit de la rgression. Les rsidus i doivent
tre rpartis alatoirement autour de la valeur 0, ils ne doivent pas avoir tendance prendre des valeurs
diffrentes selon les valeurs de Y(graphique suivant).

Rsidus en fonction de lexogne X


L'ide est de dtecter s'il y a une relation quelconque entre le terme d'erreur et lexogne. Rappelons
que la variable exogne et les erreurs sont indpendantes par hypothse (covariance nulle), cela doit
tre confirm visuellement.
8.2. Problme de lautocorrlation
La prsence dautocorrlation des erreurs correspond la violation de lhypothse COV(i, j) = 0. En
effet on a COV(i, j) = se 0 o se est la variance des erreurs et un paramtre compris entre -1
et 1. On est donc en prsence dautocorrlation.

Page | 43

A noter, toutefois, quen prsence dautocorrlation18, lestimateur MCO reste toujours sans biais mais
sa variance nest plus minimale.
Nous sommes en prsence dune autocorrlation des erreurs lorsquelles sont lies par un processus de
reproduction. Nous pouvons distinguer lautocorrlation positive (graphique 1) qui est caractrise par
des successions de rsidus de mme signe, de lautocorrlation ngative (graphique 2) qui est
caractrise par une alternance positive et ngative des rsidus.
Graphique 1. Autocorrlation positive des rsidus

Graphique 2. Autocorrlation ngative des rsidus

8.2.1. Dtection des autocorrlations


La dtection dune ventuelle dpendance des erreurs ne peut seffectuer qu partir de lanalyse des
rsidus, en effet eux seuls sont connus.

Examen visuel des rsidus

Lanalyse graphique des rsidus permet le plus souvent de dtecter un processus de reproduction des
erreurs lorsque :
- les rsidus sont pendant plusieurs priodes conscutives soit positifs, soit ngatifs : autocorrlation
positive (graphique 1) ;
- les rsidus sont alterns : autocorrlation ngative (graphique 2).
Cependant, le plus souvent, lanalyse graphique est dlicate dinterprtation car le dessin des rsidus
ne prsente pas des caractristiques toujours videntes.
8.2.2. Test de Durbin-Watson
Formulation
Le test de Durbin-Watson permet de dtecter une autocorrlation de la forme :

Le test dhypothse scrit 19:


H : r = 0

H: r 0
On utilise la statistique DW de Durbin-Watson :
(e e)
DW =
= 2(1 r)
e
18

Lautocorrlation des erreurs est, gnralement, frquente dans les sries temporelles.
Vu sa forme, nous pouvons dire que le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlations des
rsidus d'ordre 1.
19

Page | 44

Par construction, la statistique DW est comprise entre 0 et 4. Si r = 1 (autocorrlation ngative), alors


DW = 4 et si r = 1 (autocorrlation positive), alors DW = 0. Sous H0, r = 0, donc DW = 2. Ainsi,
lorsque la statistique DW est proche de 2, cela signifie une absence dautocorrlation des erreurs. Dans
ce cas, on ne peut pas rejeter lhypothse nulle.
Cependant, pour une interprtation plus prcise du test de Durbin-Watson, on se rfre une table qui
donne les valeurs critiques d1 et d2 (dL et dU dans la table). Les valeurs d1 et d2 sont fournies dans la
table20 de DW et prsentes en fonction la fois du nombre dobservations et du nombre de variables
explicatives. En fonction du seuil derreur retenu (alpha), on lit dans la table les deux valeurs d1 et d2
avec lesquelles on construit la table de dcision suivante :

>0

=0

<0

Application sur les donnes de la taille - poids


Toujours en utilisant le logiciel SPSS, on peut demander le calcul de la statistique du test de DurbinWatson et ce, en activant Rsidus Durbin-Watson de loption Statistiques de la rgression.

La valeur de la statistique du test est gale 1,702. Daprs la table de Durbin-Watson, cette valeur est
situe entre dU et 4-dU =4-1,41(1,41-2,59). Donc lhypothse H0 relative labsence
dautocorrlation des rsidus est accepte.
8.3. Problme de lhtroscdasticit
L'homoscdasticit s'observe lorsque la dispersion des rsidus est homogne sur tout le spectre des
valeurs de la variable indpendante. C'est une proprit souhaitable puisque si les rsidus
correspondent bien des alas de mesure, il ny a pas de raison que la dispersion de ces rsidus change
en fonction des valeurs du prdicteur.
8.3.1. Analyse par les tests

Test de Breusch-Pagan

Lhomognit des variances peut tre teste grce au test de Breusch-Pagan. Il a pour hypothse
nulle lhomoscdasticit et pour hypothse alternative lhtroscdasticit :

20

Voir annexes.
Page | 45

H les rsidus ont tous la mme variance se




H les rsidus nont pas tous la mme variance se

Nous utilisons la fonction bptest du package lmtest.

> estimation=lm(taille~poids,data=donnes)
> bptest(estimation)
studentized Breusch-Pagan test
data: estimation
BP = 0.098427, df = 1, p-value = 0.7537
La p-value tant suprieure 0,05, nous dcidons de garder lhypothse nulle dhomoscdasticit.
Un autre test quivalent est le test de White, utilisable par la fonction white.test du package bstats ; les
hypothses nulle et alternative sont les mmes que pour le test de Breusch-Pagan :

Analyse par le test de LEVENE

Formulation
La formule du test de Levene est la suivante :

Avec :

Les hypothses du test sont :

Si H0 est vraie et que les conditions dapplication sont runies (variable y distribue normalement ;
observations indpendantes) alors la statistique W est distribue comme un F de Fisher-Snedecor 1
= g-1 et 2=N-g degrs de libert. Autrement dit, on accepte H0 si W < F1-,1, 2 o ' > .
Application sur les donnes de la taille - poids
Toujours en utilisant le logiciel SPSS, on peut demander le calcul de la statistique du Levure, mais il
va falloir choisir une variable "groupe". Pour cela, nous allons choisir la variable sexe comme facteur
(N=2).

Conclusion
Page | 46

En se basant sur la moyenne, nous avons ' =0,504 > 5%, donc nous acceptons lhypothse H0,
autrement dit lhomoscdasticit des rsidus est accepte.
8.3.2. Analyse par les graphiques
Lapproche par les graphiques, pour vrifier lhypothse de la constance de la variance des rsidus,
consiste produire le nuage de points que lon obtient en prenant les valeurs prdites comme abscisses
et les rsidus comme ordonnes. Les situations possibles sont illustres comme suit :

SECTION 2 : ASPECTS PRATIQUES


Durant cette section, nous allons travailler avec des donnes sur la taille (en centimtres) et le poids
(en kilogrammes) pour un chantillon compos de 20 individus. Pour les calculs, nous allons utiliser le
logiciel SPSS et le tableur EXCEL pour trouver les calculs dtaills de la rgression linaire simple.
Tableau 1. Rpartition des 20 individus selon la taille et le poids
N
1
2
3
4
5
6
7
8
9
10
11
12

Poids (X)

Taille (Y)

46
78
85
85
85
85
95
95
100
100
100
103

152
158
160
162
158
159
165
165
166
159
166
168
Page | 47

13
14
15
16
17
18
19
20

105
105
115
115
115
130
135
150

163
164
168
166
162
165
167
172

1. Rgression linaire simple avec SPSS


1.1. La corrlation
1.1.1.

Nuage de points

Soient les deux variables X et Y, respectivement le poids (en kg) et la taille (en cm).
La procdure suivre pour construire le digramme du nuage des points, sous le logiciel SPSS,
est comme suit :

a. Mode menu

b. Mode syntaxe
Page | 48

GRAPH /SCATTERPLOT(BIVAR)=Poids_X WITH Taille_Y


/MISSING=LISTWISE.
Figure 1. Nuage des points de Poids/Taille

Le nuage de points (figure ci-dessus) indique que les couples de valeurs sont
approximativement aligns : les deux variables semblent corrles positivement.
1.1.2.

Coefficient de corrlation linaire

Pour calculer le coefficient de corrlation linaire de Pearson, il faut suivre la procdure


suivante :

c. Mode menu

Slectionner Bivarie : une nouvelle fentre apparat ;


Complter cette fentre lajout des deux variables X et Y.
Figure 2. Commandes SPSS
pour la corrlation bivarie

Page | 49

d. Mode syntaxe
CORRELATIONS /VARIABLES=Taille_Y Poids_X
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE.

Lextrait suivant du listing donne le coefficient de corrlation linaire


Tableau 2. Matrice de corrlation
affiche par SPSS

X Poids en kilogrammes

Y Taille en centimtres

Corrlation de Pearson
Sig. (bilatrale)
N
Corrlation de Pearson
Sig. (bilatrale)
N

X Poids
Y Taille
en kilogrammes en centimtres
1
.838**
.000
20
20
.838**
1
.000
20
20

** La corrlation est significative au niveau 0.01 (bilatral).

Le tableau obtenu est une matrice symtrique21. Da manire horizontale ou verticale, on peut lire les
corrlations de Y avec Y et X. Les coefficients calculs ont t valus dun point de vue statistique.
SPSS indique dans cette sortie le niveau de significativit de deux faons : lune chiffre (0,838) et
lautre par ** (la corrlation est significative au niveau 0,01-bilatral-).
Par ailleurs, le test dhypothse relatif au coefficient de corrlation se prsente comme suit :
t =

Nous avons

,
t = 6,516 > t
(2,1009)

|0,838|

(1 0,838)
20 2

, nous concluons que le coefficient de corrlation entre x et y est

significativement diffrent de 0.

1.2.Estimation des paramtres


En utilisant SPSS (mode syntaxe)

Sur les donnes du tableau ci-dessus, la premire tape consiste regarder les donnes pour vrifier
quune liaison linaire est envisageable (Proc GRAPH /SCATTERPLOT(BIVAR)). Puis en deuxime
tape on calcule le coefficient de corrlation (Proc CORRELLATIONS). Cette deuxime tape non
21

Du fait que Cov(X,Y) = Cov(Y,X).


Page | 50

indispensable en rgression simple deviendra essentielle en rgression multiple. Enfin on effectue une
rgression linaire (Procdure REGRESSION).
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Taille_Y
/METHOD=ENTER Poids_X.

En utilisant SPSS (mode interactif)

Pour faire appel la procdure de rgression simple en SPSS, on procde comme suit :

Aprs avoir cliqu sur loption Linaire, on compltera comme indiqu la fentre qui souvre.
Figure 3. Commande SPSS pour la rgression linaire : fentre principale

Lextrait du listing de la rgression linaire simple obtenu, soit en excutant le programme SPSS ci-dessus
ou en utilisant le mode interactif du mme logiciel, se prsente comme suit22 :
Tableau 3. Extrait du listing de rgression linaire simple
Coefficientsa
Coefficients non

Coefficients

standardiss

standardiss

Modle
A
(Constante)
1

X Poids en
kilogrammes

Erreur
standard

145.990

2.714

.170

.026

95.0% % intervalles de
t

Sig.

Borne

Limite

infrieure

suprieure

53.795 .000

140.288

151.691

6.508 .000

.115

.225

Bta

.838

confiance pour B

a. Variable dpendante : Y Taille en centimtres

22

Pour des raisons pdagogiques, seul le tableau donnant lestimation des paramtres sera prsent.
Page | 51

La lecture du tableau des coefficients montre que : b = 145,990; b = 0,170

Ainsi, le modle de la rgression linaire liant X et Y se prsente comme suit :


= ,  + .

1.3. Dcomposition de la variance et coefficient de dtermination


En plus du tableau relatif lestimation des paramtres de la rgression, deux autres tables sont aussi
donns par le logiciel SPSS. Il sagit dun rcapitulatif des modles et du tableau de dcomposition de
la variance (ANOVA).
A partir du premier tableau, on obtient R = 0,702.
La lecture des donnes du tableau de lANOVA fait ressortir les sommes des carrs :
SCE = 6787,824
SCR = 2884,726
SCT = 9672,550

avec ddl =1.


MCE = 6787,824
avec ddl = 18. MCR = 160,263
avec ddl = 19.
Rcapitulatif des modles
Erreur standard de

Modle
1

R
.838

R-deux
a

R-deux ajust

.702

l'estimation

.685

2.574

a. Valeurs prdites : (constantes), X Poids en kilogrammes


b

ANOVA

Modle

Somme des carrs ddl Moyenne des carrs

Rgression

280.529

280.529

Rsidu

119.221

18

6.623

Total

399.750

19

Sig.

42.354 .000a

a. Valeurs prdites : (constantes), X Poids en kilogrammes


b. Variable dpendante : Y Taille en centimtres

1.4. Test de significativit globale (Evaluation globale de la rgression)


Les mmes rsultats sont trouvs en utilisant le logiciel SPSS. En effet, le rsultat du test de
signification globale du modle de la rgression linaire simple est donn par la dernire colonne du
tableau ANOVA. En fait, SPSS donne la valeur de la p-value ' qui galise la valeur 0,000 et qui
est infrieure =0,05. La conclusion est la mme23.
1.5. Tests dhypothses sur les paramtres
La lecture des donnes, du tableau n 3, des coefficients permet de dgager les rsultats des tests des
paramtres. Puisque les "p-value" des deux paramtres ' sont gales 0,000 < =0,05, on conclut
que les deux paramtres sont diffrents de zro.
2. Rgression linaire simple avec la fonction DROITEREG dEXCEL

23

Il ne peut pas y avoir de contradictions entre ces deux visions de toute manire.
Page | 52

Tous les rsultats vu dans la section 2 de ce support peuvent tre obtenus facilement en partant des
valeurs fournies par la fonction DROITEREG d'Excel. Nous allons reproduire les donnes du tableau 1
relatives aux variables taille et poids, partir des sorties de la fonction DROITEREG du tableur
EXCEL, nous avons tabli les principaux indicateurs d'valuation globale et individuelle des
coefficients (Figure suivante). Nous avons volontairement affich les en-ttes des lignes et colonnes de
la feuille Excel pour rendre la lecture plus facile.
Nous disposons du tableau de donnes de 20 observations en B2 :C21. Nous insrons la fonction
DROITEREG sur la plage F3 : G7. Elle fournit les coefficients estims sur la premire ligne, nous
rservons autant de colonnes qu'il y a de coefficients (2 dans notre cas, la pente et la constante de la
rgression) ; et, si nous souhaitons consulter les statistiques intermdiaires relatifs la rgression, nous
devons rserver 4 lignes supplmentaires (5 lignes en tout). Par ailleurs, tant donn quil s'agit d'une
Page | 53

fonction matricielle, elle complte directement plusieurs cellules, nous devons donc valider en
appuyant simultanment sur les touches CTRL + MAJ + ENTREE.
Sorties de la fonction DROITEREG dEXCEL (Taille et poids)

Il est remarquer que toutes les valeurs calcules par la fonction DROITEREG sont identiques celles
que nous avions tablies par le logiciel SPSS et calculs manuels avec un tableur.
3. Rgression linaire simple avec le logiciel R
3.1. La corrlation

Soient les deux variables X et Y, respectivement le poids (en kg) et la taille (en cm).
- lecture de donnes
> donnes=read.spss("taillepoids.sav",to.data.frame=TRUE)
- manipulables des variables par leurs propres noms
> attach(donnes)
3.1.1. Nuage de points
- digramme du nuage des points

> plot(donnes)
- ajustement du nuage par une droite linaire
> abline(estimation)

3.1.2. Coefficient de corrlation linaire


Page | 54

> cor(donnes)
poids taille
poids 1.0000000 0.8377121
taille 0.8377121 1.0000000

- Coefficient de corrlation linaire (prcision =2)


> round(cor(donnes),2)
poids taille
poids 1.00 0.84
taille 0.84 1.00

3.2. La rgression linaire simple


3.2.1. Estimation des paramtres

> estimation=lm(taille~poids)
- estimation du mole (toutes les informations)
> summary(estimation)
Call:
lm(formula = taille ~ poids)
Residuals:
Min
1Q Median
3Q Max
-4.0201 -1.8630 -0.1686 2.5269 4.4690
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.98994 2.71384 53.795 < 2e-16 ***
poids
0.17030 0.02617 6.508 4.05e-06 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.574 on 18 degrees of freedom
Multiple R-squared: 0.7018, Adjusted R-squared: 0.6852
F-statistic: 42.35 on 1 and 18 DF, p-value: 4.05e-06

La lecture de la sortie R donne : b = 145,990; b = 0,170 ; = , + .


3.2.2. Tests dhypothses sur les paramtres

Puisque les "p-value" des deux paramtres p-value ' codes : 0 *** sont gales 0,000 <
=0,05, on conclut que les deux paramtres sont diffrents de zro.
3.2.3. Tableau de lanalyse de la variance

> anova(estimation)
Analysis of Variance Table
Response: taille
Df Sum Sq Mean Sq F value Pr(>F)
poids
1 280.53 280.529 42.354 4.05e-06 ***
Residuals 18 119.22 6.623
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

3.2.4. Test de significativit globale (Evaluation globale de la rgression)

p-value ' codes : 0 *** qui galise la valeur 0,000 et qui est infrieure =0,05. La conclusion
est la mme24.

24

Il ne peut pas y avoir de contradictions entre ces deux visions de toute manire.
Page | 55

CHAPITRE 2. ANALYSE DE LA REGRESSION MULTIPLE


SECTION 1 : ASPECTS THEORIQUES
1. INTRODUCTION

La rgression linaire multiple est la gnralisation multivarie de la rgression simple. Nous


cherchons expliquer les valeurs prises par la variable endogne Y l'aide de p variables exognes Xj,
(j = 1, . . . , p).
Lhypothse nulle est quil ny a pas de relation linaire entre la combinaison des variables
indpendantes (Xi : i=1, p) et la variable dpendante (Y).
Lhypothse de recherche est linverse, soit que la combinaison des variables indpendantes est
associe significativement la variable dpendante.
L'quation de rgression s'crit :
y = a + ax+ ax + ax + + ax + e (1)

Nous devons estimer les valeurs des (p + 1) paramtres (a0, a1, . . . , ap) partir d'un chantillon de n
observations. Nous remarquons dans le modle (1) :
- i = 1, . . . , n correspond au numro des observations ;
- yi est la i-me observation de la variable Y ;
- xi,j est la i-me observation de la j-me variable ;
- i est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer
linairement les valeurs de Y l'aide des p variables Xj (ex. problme de spcification, valeurs
exognes manquantes, etc.).
Les tapes processus de modlisation sont les suivantes :
1. Estimer les valeurs des coefficients (a0, a1, . . . , ap) partir d'un chantillon de donnes (estimateur
des moindres carrs ordinaires).
2. valuer la prcision de ces estimations (biais, variance des estimateurs).
3. Mesurer le pouvoir explicatif du modle dans sa globalit (tableau d'analyse de variance,
coefficient de dtermination).
4. Tester la ralit de la relation entre Y et les exognes Xj (test de significativit globale de la
rgression).
5. Tester l'apport marginal de chaque variable explicative dans l'explication de Y (test de
significativit de chaque coefficient).
6. Tester l'apport d'un groupe de variables explicatives dans l'explication de Y (test de significativit
simultane d'un groupe de coefficient).
7. Pour un nouvel individu i pour lequel on fournit la description (xi;1, . . . , xi;p), calculer la
valeur prdite y et la fourchette de prdiction.
8. Interprter les rsultats en mettant en avant notamment l'impact des exognes sur l'endogne
(interprtation des coefficients, analyse structurelle).

Partant du fait que la modlisation est un processus itratif, nous allons aussi tudier dautres notions,
notamment :
Page | 56

- L'tude des rsidus, graphiquement mais aussi numriquement avec les tests de normalit, les tests
du caractre alatoire des erreurs.
- La dtection des points aberrants et influents, ces points qui peuvent peser de manire indue sur les
rsultats de la rgression.
- Les problmes de colinarit et la slection de variables.
2. NOTATION MATRICIELLE

Le modle de rgression linaire multiple, observation par observation est crit comme suit :
y = a + ax + ax + ax + + ax+e

y = a + ax + ax + ax + + ax+e
. . .

y = a + ax + ax + ax + + ax+e
. . .

y = a + ax + ax + ax + + ax+e

On peut crire ce modle sous une criture matricielle :

Y = Xa +

Ou encore :

=
1

x x

O : Y = ; X =
1

x x

e
e
e

Les dimensions des matrices sont respectivement :

e
e
e

;a= ;e=

- Y (n, 1)
- X (n, p + 1)
- a (p + 1, 1)
- (n, 1)
La matrice X de taille (n, p+1) contient l'ensemble des observations sur les exognes, avec une
premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.
3. HYPOTHESES

Comme pour la rgression simple, les hypothses permettront de dterminer les proprits des
estimateurs (biais, convergence) et les lois de distribution (loi de Student pour chaque coefficient pris
individuellement, loi de Fisher ds que l'on traite un groupe de coefficients).
Nous distinguons les hypothses stochastiques et les hypothses structurelles.
3.1. HYPOTHESES STOCHASTIQUES (de nature probabiliste)

Les hypothses stochastiques se prsentent comme suit :


H1 : Les Xj sont non alatoires c'est--dire les xij sont observs sans erreur.
Page | 57

H2 : E[i] = 0, l'esprance de l'erreur est nulle. En moyenne, le modle est bien spcifi.
H3 : E[ ] = e , la variance de l'erreur est constante, c'est l'hypothse de homoscdasticit.

H4 : COV (i,i) = 0 pour i i, les erreurs sont indpendantes, c'est l'hypothse de non autocorrlation
des rsidus.
H5 : COV (xij, i) = 0, l'erreur est indpendante des variables exognes.
H6 : i N(0, e ), les erreurs sont distribus selon une loi normale.
3.2. Les hypothses structurelles
Les hypothses structurelles se prsentent comme suit :

H1 : La matrice (XX) est rgulire cest dire det(XX) 0 et (XX)1 existe. Elle indique l'absence
de colinarit entre les exognes. Nous pouvons aussi voir cette hypothse sous l'angle rang(X) = p + 1
et rang(XX) = p + 1.
H2 :

()

tend vers une matrice finie non singulire lorsque n +.

H3 : n > p+1, le nombre d'observations est suprieur au nombre de paramtres estimer.


Dans le cas o n = p + 1, nous avons une interpolation, la droite passe exactement par tous les points.
Lorsque n < p + 1, la matrice (XX) n'est plus inversible.
4. ESTIMATION DES PARAMETRES

4.1. Minimisation de la somme des carrs des erreurs


Afin destimer les paramtres composs des coefficients a0, a1, a2, , ap (vecteur a), nous appliquons
la mthode des moindres carrs ordinaires (MCO) qui consiste minimiser la somme (S) des carrs
des erreurs. Soit S = e o e = [y a + ax+ ax + ax+ + ax]
On passe de nouveau par les drives partielles que l'on annule pour obtenir les (p + 1) quations
normales.

Nous avons (p + 1) quations (p + 1) inconnues. Nous pouvons en extraire les estimations (a, a,
a2,. . . , a). Puisque cette criture est difficile manipuler, nous utilisons les matrices.
4.2.Ecriture matricielle
Soit le vecteur des erreurs, avec = (1, . . . , n). La somme des carrs des erreurs devient :

Dveloppons lexpression (1)

S = e = e e (1)
S = ee = (Y Xa) (Y Xa)

Page | 58

= Y Y Y Xa aX Y + aX Xa
= Y Y 2aX Y + aX Xa

En notant que : (Xa) = aX et (YXa) = aXY.

= 2(X Y ) + 2(X X)a= 0 a = (X X)X Y

La rsolution de ce systme n'est pas toujours possible. Cette rsolution est lie la possibilit
d'inversion de la matrice (X X).
4.3. Exemple : consommation des vhicules

Nous cherchons expliquer la consommation de vhicules, exprime en Litres/100 km partir de trois


variables exognes (p = 3) : la cylindre (en cm3, la puissance (en kw) et le poids (en kg). Nous
disposons de n = 28 observations.
Pour ce faire, nous avons labor une feuille Excel qui donne tous les calculs intermdiaires permettant
d'obtenir les estimations des paramtres du modle de la rgression linaire multiple (vecteur a). dans
cette feuille :
- Nous distinguons les valeurs des exognes (X1, X2, X3), et celles de lendogne Y.
- Nous ajoutons au tableau des exognes une colonne de constante, avec la valeur 1. Nous obtenons
ainsi la matrice X.

- Nous obtenons la matrice X X :

1 846 32 650
= 1 993 39 790 ;

1 2473 125 1570

28
2176
50654
33515

XX =


33515 65113780 2831550 42694125

- Nous inversons cette matrice pour obtenir (X X) ;

- Ensuite, nous calculons les produits des matrices X et Y, soit (X'Y) :


254,1
493218,1
XY=

21473,7
321404,5

- Enfin, nous obtenons les estimations des paramtres de la rgression en calculant a a = (X X)X Y

- Le modle scrit :

a
1,7020
a
0,0005
a = =

0,0183
a
0,0042
a

Consommation = , + , x cylindre + , x puissance + , x poids

A travers la lecture du modle trouv, nous constatons que toutes les variables jouent positivement sur
la consommation. Autrement dit, la cylindre, la puissance ou le poids des vhicules augmentent, la
consommation (en litres/100km) a tendance augmenter.
Page | 59

Un accroissement dune unit sur la VI Xj se traduit par un accroissement de a units sur la VD.

Le tableau suivant donne le dtail des calculs intermdiaires relatifs lestimation des paramtres.
Calculs matriciels de lexemple de la consommation des vhicules
X
Constante Cylindre Puissance Poids
1
846
32
650
1
993
39
790
1
899
29
730
1
1390
44
955
1
1195
33
895

Y
Consommation
5,7
5,8
6,1
6,5
6,8

1
1
1
1
1
1
1
1
1
1
1
1

658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435

32
55
74
74
101
85
85
89
65
54
66
106

740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370

6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8

1
1
1
1
1
1
1
1
1
1
1

1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473

55
107
150
122
66
125
89
92
85
97
125

940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570

6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

X'X
28
50654
2176
50654 102138444
4451219
2176
4451219
197200
33515 65113780
2831550

33515
65113780
2831550
42694125

(X'X)-1
0,70598604 -0,00014708 0,00558634 -0,00070038
-0,00014708 0,00000107 -0,00001589 -0,00000047
0,00558634 -0,00001589 0,00035837 -0,00000392
-0,00070038 -0,00000047 -0,00000392 0,00000155
X'Y
254,1
493218,1
21473,7
321404,5

Constante
Cylindre
Puissance
Poids

1,7020
0,0005
0,0183
0,0042

4.4. Quelques remarques sur les matrices

Les matrices (XX)1 et (XY) qui entrent dans la composition de a peuvent tre interprtes d'une
manire qui nous claire sur l'influence des variables dans l'estimation.

a. Matrice (XX)
Chaque case de la matrice (XX), de dimension (p+1, p+1), est forme par la somme du produit crois
entre les exognes, en effet :

(XX) est une matrice symtrique. Elle indique le degr de liaison entre les exognes.

b. Matrice (X'Y)
Chaque case du vecteur (XY), de dimension (p+1,1), est compose du produit crois entre les
exognes et l'endogne.

(XY)

Page | 60

Le vecteur indique le degr de liaison entre chaque exogne et Y.


Ainsi le coefficient associ une variable explicative sera d'autant plus leve en valeur absolue,
relativement aux, qu'elle est fortement lie avec l'endogne et, dans le mme temps, faiblement lie
avec les autres exognes.
5. Interprtation des coefficients
Durant ce paragraphe, nous allons essayer de lire les coefficients fournis par la modlisation, tout
d'abord dans une rgression simple, on parle de coefficients bruts, puis dans la rgression multiple, on
parle de coefficients partiels.
5.1. Coefficient brut
On cherche expliquer la consommation partir du poids des vhicules. Nous obtenons le modle
suivant (tableau suivant):
=0,00669 x poids + 1,06269

Nous pouvons lire le coefficient de la manire suivante : une augmentation du poids d'un vhicule de
1kg entrane une consommation supplmentaire de 0,00669 litres au km. On mesure l'association
brute, en dehors de toute considration des autres variables qui pourraient influencer la consommation.
La pente de la rgression est trs significative 5% avec un t de Student gal :
tpoids = 0,00669/0,00053 = 12,53805 > > t0,975 (12,53805) = 2,18.
Lecture des coefficients de la rgression(consommation des vhicules)
X
Cylindre Poids
846
650
993
790
899
730
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473

955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570

Y
Consommation
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

DROITEREG
Poids
Constante
0,00669
1,06269
0,00053
0,65925
SCE

t0,975

0,85808
157,20

0,85719
26

DROITEREG
Poids
Cylindre Constante
0,0044
0,0013
1,4176
0,0009
0,0005
0,5993
4,7378
2,8134
2,7764
4,3027
-

5.2.Coefficients partiels
Ralisons maintenant la mme rgression en introduisant la variable cylindre (tableau suivant). Le
coefficient de poids a t modifi : =0,00443 x poids + 0,00130 x Cylindree + 1,41755
Les deux variables sont significatives 5% (tableau ci-dessus).

Page | 61

La modification du coefficient de poids s'explique par le fait que la variable poids est lie la variable
cylindre. Le coefficient de corrlation rpoids,cylindree = 0,8616 le montre bien. Lorsque la cylindre
augmente, le poids varie galement, dans le mme sens : a en tient compte.
Le nouveau coefficient se lit de la manire suivante : cylindre gale, lorsque le poids augmente de
1kg, la consommation s'accrotra de 0,00443 litres au km. C'est le fameux "toutes choses gales par
ailleurs". On parle alors de coefficient partiel. Nous avons neutralis l'impact de la cylindre sur le
poids dans la dtermination de l'influence de ce dernier sur la consommation.

Pour expliquer ce phnomne, nous essayons une petite exprience. Nous allons retrancher la partie de
poids explique par la cylindre en calculant le rsidu de la rgression (poids = a0 + a1 x cylindree).
Puis, nous introduisons ce rsidu comme variable explicative dans la rgression simple expliquant la
consommation : (Y = b0 + b1 x rsidu). Si notre explication tient la route, la pente b1 devrait
correspondre au coefficient partiel 0,00443.
La rgression de la variable poids sur cylindre donne ce qui suit :
Poids = 0,4269 x cylindree + 424,75
Il est significatif avec un coefficient de dtermination R = 0,74. Nous calculons les rsidus en
dduisant du poids observ le poids prdit par le modle : rsidus(poids/cylindree) = poids (0,4269 x
cylindree + 424,75). Le rsidu reprsente la fraction de poids qui n'est pas explique par la cylindre.
Nous l'introduisons comme variable explicative dans la rgression expliquant la consommation :
Y = 0,00443 x rsidus + 9,075
b1 = 0,00443 reprsente l'impact du poids sur la consommation en dehors de (en contrlant, en
neutralisant) l'influence de la cylindre et, nous retrouvons le coefficient partiel de la rgression
multiple.
X
Cylindre Poids
846
650
993
790
899
730
1390
955
1195
895
658
740
1331
1010
1597
1080
1761
1100
2165
1500
1983
1075
1984
1155
1998
1140
1580
1080
1390
1110
1396
1140
2435
1370
1242
940
2972
1400
2958
1550
2497
1330
1998
1300
2496
1670
1998
1560
1997
1240
1984
1635
2438
1800
2473
1570

Y
Consommation
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

Poids^
785,9
848,6
808,5
1018,1
934,8
705,6
992,9
1106,4
1176,4
1348,9
1271,2
1271,6
1277,6
1099,2
1018,1
1020,6
1464,1
954,9
1693,4
1687,4
1490,6
1277,6
1490,2
1277,6
1277,2
1271,6
1465,4
1480,4

rsid(poids/cyl)
-135,9
-58,6
-78,5
-63,1
-39,8
34,4
17,1
-26,4
-76,4
151,1
-196,2
-116,6
-137,6
-19,2
91,9
119,4
-94,1
-14,9
-293,4
-137,4
-160,6
22,4
179,8
282,4
-37,2
363,4
334,6
89,6

Poids = a0 + a1 Cylindree
a1
a0
0,4269
424,75

b^

Y = b0 + b1 Rsidus
b1
b0
0,0044
9,08

5.3.Coefficients standardiss
Les quations de rgression dcrivent la relation entre la VD et un groupe de VI, et leurs coefficients
de rgression non standardiss mesurent les effets des variables indpendantes sur la variable
dpendante. Cependant, la taille du coefficient de rgression dpend des units de mesure des
variables. Dans ce cas, cest difficile de savoir laquelle des variables est la plus importante. On ne peut
Page | 62

pas comparer directement les coefficients de rgression des variables car ils dpendent de lchelle de
mesure des variables prdictrices et de la variable expliquer.
Il est clair quil nous faut une bonne mesure des effets des VI qui tienne compte des diffrences
dunits de mesure tout en contrlant les effets des autres variables indpendantes.
Cette statistique existe et sappelle justement les coefficients de rgression standardiss, ou de faon
plus simple, les coefficients Bta.
Revenons la rgression multiple expliquant la consommation partir du poids et de la cylindre
(tableau ci-dessus). Nous avons  =,  + ,  + ,

Les coefficients indiquent l'impact des exognes en contrlant les autres variables. Il reste nanmoins
une question cl : quelle est la variable qui a le plus d'influence sur la consommation, le poids ou la
cylindre ?
Les variations d'une unit de poids et d'une unit de cylindre ne reprsentent pas la mme chose, elles
ne sont pas opposables. Pour les rendre comparables, nous devons standardiser les coefficients et
raisonner en termes d'carts-type. Nous obtiendrions une lecture du type : lorsque le poids (la
cylindre) varie de 1 cart-type, la consommation varie de a1 (a2) carts-type.
Rgression sur donnes centres et rduites
Une technique simple permettant d'obtenir les coefficients standardiss (Btas) consiste centrer et
rduire toutes les variables (exognes et endogne) et lancer la rgression sur les donnes
transformes. Nous avons ralis cette opration sur notre fichier. Les tapes de calcules de ces
coefficients se prsentent comme suit :
- Etape 1 : Soient y, x et s, s respectivement les moyennes et les cart-type de la variable

dpendante et les variables indpendantes, on transforme ces dernires comme suit :

- Etape 2 : le modle retient dans ce cas des variables centres rduites. On estime les paramtres de
la rgression linaire multiple par la mthode des moindres carrs ordinaires. Les coefficients obtenus
sappelles coefficients standardiss bta .
Le tableau suivant illustre cette mthode de calcul de ces coefficients pour la consommation des
vhicules.
Ycr = 0,6128 x poidscr + 0,3639 x cylindrecr + 0,0000
Les variables tant centres, la constante est nulle. Nous pouvons lire les rsultats en termes d'cartstype et comparer les coefficients. Lorsque le poids (respectivement la cylindre) augmente de 1 carttype, la consommation augmente de 0,6128 fois (respectivement 0,3639) son cart-type. Maintenant,
nous pouvons dire que le poids pse, comparativement, plus sur la consommation que la cylindre.
Ces coefficients standardiss sont souvent directement fournis par les logiciels de statistique pour
indiquer l'importance relative des variables (Coefficients standardiss Bta- pour SPSS).

Page | 63

Xj
Cylindre
846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473
E-T 623,661

Rg. sur donnes originelles

Y
Poids
650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570
308,993

Consommation
Cylindre Poids
5,7
-1,544 -1,770
5,8
-1,309 -1,317
6,1
-1,459 -1,511
6,5
-0,672 -0,783
6,8
-0,985 -0,977
6,8
-1,846 -1,479
7,1
-0,767 -0,605
7,4
-0,340 -0,379
9,0
-0,077 -0,314
11,7
0,571
0,981
9,5
0,279
-0,395
9,5
0,280
-0,136
8,8
0,303
-0,184
9,3
-0,367 -0,379
8,6
-0,672 -0,281
7,7
-0,662 -0,184
10,8
1,004
0,560
6,6
-0,909 -0,832
11,7
1,865
0,657
11,9
1,842
1,143
10,8
1,103
0,431
7,6
0,303
0,333
11,3
1,101
1,531
10,8
0,303
1,175
9,2
0,301
0,139
11,6
0,280
1,418
12,8
1,008
1,952
12,7
1,065
1,207
Moy 0 - 0
2,233
E-T
1
1

Consommation
-1,512
-1,467
-1,332
-1,153
-1,019
-1,019
-0,885
-0,750
-0,034
1,176
0,190
0,190
-0,123
0,101
-0,213
-0,616
0,773
-1,108
1,176
1,265
0,773
-0,661
0,996
0,773
0,056
1,131
1,668
1,623
0
1

DROITEREG
Poids
0,00443

Cylindree
0,00130

Constante
1,41755

Rg. sur Centres. Rduites


DROITEREG
Poids
Cylindree
Constante
0,6128
0,3639
0,000
Coef. Corrigs par les carts-type
Cofficients "Btas"
Poids
Cylindree
Constante
0,6128
0,3639

Les mmes rsultats sont obtenus en utilisant le logiciel SPSS (tableau suivant) :

Correction des coefficients de la rgression usuelle


Si nous avons la rponse la question, la procdure est un peu lourde quand mme. Elle devient
contraignante si nous avons manipuler un fichier volumineux. Et, en ralit, elle n'est pas ncessaire.
Il est possible de corriger les coefficients de la rgression sur les donnes originelles avec les cartstype des variables pour obtenir les coefficients standardiss. Pour la variable Xj, dont le coefficient
estim est initialement a, nous obtenons le coefficient standardis b avec : b = ax
b = ax

= 0,00443 x

308,993
= 0,6128
2,233

s
s

C'est ainsi que pour la variable poids, nous retrouvons le coefficient obtenu sur les donnes centres et
rduites. Il en de mme pour la variable cylindre.
b = ax

= 0,00130 x

623,661
= 0,3639
2,233

6. Proprits des estimateurs


Les proprits d'un estimateur peuvent tre tudies en rpondant aux deux questions suivantes : est-il
sans biais ? Est-il convergent ?
Nous allons directement l'essentiel dans cette partie. Le dtail de la dmarche a dj t expos dans
le cadre de la rgression simple (chapitre 1).
6.1. Biais
Page | 64

L'estimateur a est sans biais si E(a) = a. Dans quelles conditions cette proprit est respecte ?
Pour rpondre cette question, dveloppons a:

En passant l'esprance mathmatique :

Or, on sait que X est non alatoire, nous avons E[(XX)1X] = (XX)1XE() ; de plus E() = 0 par
hypothse. Nous avons bien :

L'estimateur des MCO est sans biais sous les deux hypothses suivantes ( 3.2) : (H1) X est non
alatoire, les exognes sont mesures sans erreur ; (H2) la moyenne de l'erreur est nulle E() = 0.
6.2.Variance-convergence
Soit W , de dimension (p+1, p+1) la matrice de variance covariance des coefficients c'est--dire

La matrice est symtrique, sur la diagonale principale nous observons les variances des coefficients
estims. Comment obtenir cette matrice ?
Elle est dfinie de la manire suivante :

Or

Ainsi,
En passant l'esprance mathmatique, et sachant que les X sont non-stochastiques (H1),

La quantit E[], de dimension (n, n), reprsente la matrice de variance covariance des erreurs, en
voici le dtail :

Page | 65

Nous observons les variances des erreurs sur la diagonale principale, et les covariances sur les autres
cases. Or, par hypothse ( 3.2), (H3) la variance de l'erreur est constante V (i) = E() = se et, (H4)
leurs covariances nulles COV(i, i) = 0. De fait,

O I est la matrice unit de dimension (n, n).


La matrice de variance covariance des estimateurs s'en retrouve simplifie. En effet,

Nous trouvons ainsi la matrice de variance covariance des coefficients estims.

On montre qu'une condition ncessaire et suffisante pour que asoit un estimateur convergent de a est
que les variables exognes ne tendent pas devenir colinaires lorsque n tend vers l'infini, autrement
dit que l'hypothse (H8) reste valable lorsque n tend vers l'infini.
7. Estimation des variances
7.1. Estimation de la variance de lerreur
L'expression de la variance covariance des coefficients estims, ci-dessus, est trs jolie mais
inutilisable tant que l'on ne dispose pas d'une estimation de la variance de l'erreur se .
Par analogie avec la rgression simple, nous la comprenons comme le rapport entre la somme des
carrs des rsidus (SCR) et le nombre de degrs de libert de la rgression, soit le nombre
d'observations moins le nombre de paramtres estims : [n (p + 1) = n p 1]. Ainsi, nous crirons

O est le rsidu de la rgression pour l'observation n i.

7.2. Estimation de la matrice de variance-covariance des coefficients


Disposant maintenant d'une estimation de la variance de l'erreur, nous pouvons produire une
estimation de la matrice de variance covariance des coefficients estims.

Sur la diagonale principale de cette matrice, nous disposons de l'estimation de la variance des
coefficients et, en passant la racine carre, de leur cart-type. Leur rle sera trs important dans
l'infrence statistique.
7.3.Dtails des calculs pour les donnes "Consommation des vhicules"
Page | 66

Nous reprenons notre exemple des vhicules. Nous avons reconstruit la feuille de calcul de manire
obtenir les lments ncessaires l'estimation de la variance de l'erreur et de la matrice de variance
covariance des coefficients estims (tableau suivant).
Nous reprenons des rsultats prcdents la matrice (XX)1 et les coefficients estims a .
Nous formons alors :

- La valeur prdite de l'endogne y pour chaque individu (ex. y = 1,07020 + 0,0005 846 + 0,0183
32 + 0,0042 650 = 5,4523).
- Le rsidu e= yi y (ex. e = y1 y = 5,7 5,4523 = 0,2477.
Estimation de la variance de lerreur et des coefficients estims

Constante Cylindre Puissance Poids

Consommation

1
1
1
1
1
1
1
1
1

846
993
899
1390
1195
658
1331
1597
1761

32
39
29
44
33
32
55
74
74

650
790
730
955
895
740
1010
1080
1100

5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9

5,4523
6,2447
5,7621
7,2296
6,6789
5,7402
7,6339
8,4079
8,5734

2165

1983

1
1
1
1
1

0,2477
-0,4447
0,3379
-0,7296
0,1211
1,0598
-0,5339
-1,0079
0,4266

0,0613
0,1978
0,1142
0,5324
0,0147
1,1233
0,2850
1,0159
0,1820

Constante
cylindree
puissance
poids
n
p
ddl
SCR

1,7020
0,0005
0,0183
0,0042
28
3
24
13,5807

101

1500

11,7

10,9571

0,7429

0,5519

0,5659

85

1075

9,5

8,7780

0,7220

0,5212

0,7522

1984
1998
1580
1390
1396

85
89
65
54
66

1155
1140
1080
1110
1140

9,5
8,8
9,3
8,6
7,7

9,1168
9,1333
8,2353
8,0676
8,4164

0,3832
-0,3333
1,0647
0,5324
-0,7164

0,1468
0,1111
1,1336
0,2834
0,5133

2435

106

1370

10,8

10,6319

0,1681

0,0283

1
1
1
1
1
1
1
1
1
1
1

1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473

55
107
150
122
66
125
89
92
85
97
125

940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570

6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

7,2939
11,0420
12,4542
10,7853
9,3902
12,2774
10,9094
9,6105
11,1467
12,2875
11,8432

-0,6939
0,6580
-0,5542
0,0147
-1,7902
-0,9774
-0,1094
-0,4105
0,4533
0,5125
0,8568

0,4815
0,4329
0,3072
0,0002
3,2047
0,9553
0,0120
0,1685
0,2055
0,2626
0,7342

0,6321
0,0008
0,0142
0,0009

0,7059860
-0,0001471
0,0055863
-0,0007004

(X'X)-1
-0,0001471
0,0055863
0,0000011
-0,0000159
-0,0000159
0,0003584
-0,0000005
-0,0000039

-0,0007004
-0,0000005
-0,0000039
0,0000015

0,3994902
-0,0000832
0,0031611
-0,0003963

-0,0000832
0,0000006
-0,0000090
-0,0000003

-0,0003963
-0,0000003
-0,0000022
0,0000009

0,0031611
-0,0000090
0,0002028
-0,0000022

- Que nous passons au carr e (ex. e = (0,2477)2 = 0,0613).

- Nous sommons pour obtenir la SCR (dans notre exemple, SCR = 0,0613 + 0,1978 + = 135807).
- L'estimation de la variance de l'erreur s'crit :

- L'estimation de son cart-type est :

- par la suite, on obtient l'estimation de la matrice de variance covariance des coefficients :

Elle est symtrique parce que la covariance est un oprateur symtrique.


Enfin, nous disposons sur la diagonale de cette matrice l'estimation de la variance des coefficients.
Dans notre exemple :
Page | 67

0,3994902
0,0000006
0,0002028
0,0000009

En passant la racine carre, nous avons l'estimation de l'cart-type.

8. Tests de significativit
8.1. Tableau d'analyse de variance et coefficient de dtermination
La dcomposition de la variabilit de Y (SCT) en variabilit explique par le modle (SCE) et
variabilit rsiduelle (SCR) reste valable. Nous pouvons construire une nouvelle version du tableau
d'analyse de variance qui tient compte des nouvelles valeurs des degrs de libert puisque nous
estimons (p+1) paramtres maintenant.
Tableau danalyse de la variance pour la rgression linaire multiple

La part de la de variance de Y explique par le modle est toujours traduit par le coefficient de
dtermination.

Nous avons 0 R2 1, plus ce coefficient tend vers 1 meilleur sera le modle. Lorsqu'il est proche de
0, cela veut dire que les exognes Xj n'expliquent en rien les valeurs prises par Y. Nous retiendrons
cette ide dans le test de significativit globale du modle.
8.1.1.

R corrig ou ajust

Le R est un indicateur de qualit, mais il prsente un dfaut: plus nous augmentons le nombre de
variables explicatives, mme non pertinentes, n'ayant aucun rapport avec le problme que l'on cherche
rsoudre, plus grande sera sa valeur, mcaniquement.
A l'extrme, si nous multiplions le nombre d'explicatives jusqu' ce que (p+1) soit gal n, nous
obtiendrions un R2 = 1.
Pour montrer linconvnient de lutilisation de R dans la comparaison des modles, nous allons
analyser un exemple. Dans cet exemple, nous souhaitons expliquer la teneur en oxyde de carbone
(CO) des cigarettes partir de leur composition en goudron (GOUDRON), en nicotine (NICOTINE) et
leur poids (POIDS). Nous disposons de n = 24 observations. Nous ralisons la rgression l'aide de
Page | 68

DROITEREG, nous obtenons un R2 = 0,93498 (tableau de calculs dtaills). Le degr de libert est :
ddl = 24 3 1 = 20.
Tableau des calculs - Donnes cigarettes Comparaison de modles imbriqus via R et R-ajustX
GOUDRON

NICOTINE

POIDS

14,1
16
8
4,1
15
8,8
12,4
16,6
14,9
13,7
15,1
7,8
11,4
9
1
17
12,8
15,8
4,5
14,5
7,3
8,6
15,2
12

0,86
1,06
0,67
0,4
1,04
0,76
0,95
1,12
1,02
1,01
0,9
0,57
0,78
0,74
0,13
1,26
1,08
0,96
0,42
1,01
0,61
0,69
1,02
0,82

0,9853
1,0938
0,9280
0,9462
0,8885
1,0267
0,9225
0,9372
0,8858
0,9643
0,9316
0,9705
1,1240
0,8517
0,7851
0,9186
1,0395
0,9573
0,9106
1,0070
0,9806
0,9693
0,9496
1,1184

ALEA
0,86804
0,53437
0,75873
0,16260
0,90932
0,37099
0,22998
0,09987
0,16451
0,54952
0,84421
0,13217
0,43316
0,62589
0,44693
0,68114
0,57355
0,77212
0,84903
0,68158
0,00994
0,21606
0,11609
0,42401

Y
CO
13,6
16,6
10,2
5,4
15
9
12,3
16,3
15,4
13
14,4
10
10,2
9,5
1,5
18,5
12,6
17,5
4,9
15,9
8,5
10,6
13,9
14,9

DROITEREG(GOUDRON, NICOTINE, POIDS) (1)


POIDS

R
F
SCE
SCT
CMR
CMT

2,07934
3,17842
0,93498
95,85850
386,84565
413,74958
1,34519686
17,9891123

NICOTINE GOUDRON

0,51847
3,25233
1,15983
20,00000
26,90394

0,88758
0,19548
#N/A
#N/A
#N/A

Constante

-0,55170
2,97128
#N/A
#N/A
#N/A

SCR

DROITEREG(GOUDRON, NICOTINE, POIDS, ALEA) (2)


POIDS

R
F
SCE
SCT
CMR
CMT

0,06820
0,91249
0,93499
68,32065
386,85355
413,74958
1,41558053
17,239566

NICOTINE

2,11438
3,29404
1,18978
19,00000
26,89603

GOUDRON

0,55708
3,37609
#N/A
#N/A
#N/A

Constante

0,88429
0,20530
#N/A
#N/A
#N/A

SCR

R Ajust (1)
0,92522
R Ajust (2) 0,91788769

Ajoutons la colonne ALEA dans le tableau de donnes. Elle a t gnre alatoirement avec la
fonction ALEA() d'Excel [loi uniforme U(0,1)]. Nous effectuons de nouveau la rgression en intgrant
ALEA parmi les explicatives. Le degr de libert est diminu, il est pass ddl = 19, tmoin que la
variable supplmentaire a bien t prise en compte. Malgr que la variable n'ait aucun rapport avec le
problme que nous traitons, nous dcouvrons que le R a t augment, passant R = 0,9356. ALEA
permettrait donc d'expliquer la teneur en carbone des cigarettes ?
Clairement le R en tant que tel n'est pas un bon outil pour valuer le rle de variables supplmentaires
lors de la comparaison de modles imbriqus. En augmentant le nombre d'explicatives, nous
augmentons de manire mcanique la valeur du R mais, dans le mme temps, nous diminuons le
degr de libert. Il faudrait donc intgrer cette dernire notion pour contrecarrer l'volution du R. C'est
exactement ce que fait le R-ajust (ou R-corrig).
Le R-ajust est dfini de la manire suivante :

Il s'agit donc d'un R corrig par les degrs de libert, il peut s'exprimer en fonction du R d'ailleurs :

Attention, la lecture en termes de part de variance explique n'est plus possible dans ce cas. De mme,
peut prendre des valeurs ngatives.
le R
Page | 69

Le R-ajust en tant que tel n'est pas d'une grande utilit. Son principal avantage est qu'il permet de
comparer des modles imbriqus. Si nous prenons notre exemple des cigarettes (Figure 10.1), nous
= 0,921918 < R
= 0,92522
constatons que le R-ajust du second modle est plus faible avec R
indiquant clairement que l'adjonction de ALEA parmi les exognes n'amne pas d'information
pertinente supplmentaire dans l'explication de Y.
8.1.2.

Coefficient de corrlation linaire multiple

A l'instar de la rgression linaire simple, le coefficient de corrlation linaire multiple est gal la
racine carre du coefficient de dtermination.
R = R

En revanche, la diffrence de la rgression simple, il ne correspond plus la corrlation entre


l'endogne et l'exogne, tout simplement parce que nous avons plusieurs exognes dans notre quation.
Dans le cas de la rgression linaire multiple, on montre que le coefficient de corrlation linaire
multiple correspond la corrlation entre les valeurs observes et les valeurs prdites de l'endogne,
cest dire : r, = R

Cela suggre de construire le graphique nuage de points confrontant yi et y pour valuer la qualit de
la rgression. Si le modle est parfait, les points seraient aligns sur la premire bissectrice.
8.1.3.

Application aux donnes "Consommation des vhicules"

Reprenons les donnes du tableau de lanalyse de variance, trouves par la fonction DROITEREG, et
traons le graphique Y observ et Y calcul.
X

Cylindre Puissance Poids

Consommation

846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
1998
2496
1998
1997
1984
2438
2473

32
39
29
44
33
32
55
74
74
101
85
85
89
65
54
66
106
55
107
150
122
66
125
89
92
85
97
125

650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1300
1670
1560
1240
1635
1800
1570

5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9,0
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

DROITEREG
5,45
6,24
5,76
7,23
6,68
5,74
7,63
8,41
8,57
10,96
8,78
9,12
9,13
8,24
8,07
8,42
10,63
7,29
11,04
12,45
10,79
9,39
12,28
10,91
9,61
11,15
12,29
11,84

constante
cylindree
puissance
poids

1,7020
0,0005
0,0183
0,0042

0,6321
poids
puissance cylindree constante
0,0008
0,0042
0,0183
0,0005
1,7020
0,0142
0,00094
0,01424 0,00078
0,63205
0,0009 R
0,89911
0,75224 #N/A
#N/A
F
71,29651 24,00000 #N/A
#N/A
SCE 121,03183 13,58067 #N/A
#N/A
SCR
Tableau d'analyse de variance
Source
SCR
ddl
CM
Explique 121,03183
3
40,3439
Rsiduelle
13,58067
24
0,5659
Totale
134,61250
27
4,9856
R
R ajust
R ajust
r(y,y^)

0,89911
0,88650
0,94822
0,948

Nous calculons les ratios supplmentaires :


= 1 (1 R) = 1 (1 0,89911) = 0,88650.
- Le R -ajust, R

- Le coefficient de corrlation linaire multiple, R = R = 0,89911 = 0,94822


- Nous vrifions quil est gal au coefficient de corrlation linaire entre lendogne observe Y et
lendogne prdite par le modle
Y, r, = 0,94822.
Page | 70

Un R assez lev (avoisine la valeur 1) laisse penser que le modle est plutt bon. En construisant le
, nous constatons effectivement que les points sont plutt bien aligns sur la
graphique croisant Y et Y
premire bissectrice.
Y observ et Y calcul par le modle
(consommation des vhicules)

8.1.4.

Test de signification globale de la rgression


Formulation

Le test de significativit globale consiste vrifier si le modle, pris dans sa globalit, est pertinent.
L'hypothse nulle correspond la situation o aucune des exognes n'emmne de l'information utile
dans l'explication de Y cest dire le modle ne sert rien. Le test s'crit :

Une autre manire dexprimer d'exprimer le test consiste poser la question : est-ce que le R2 est
significativement suprieur 0 ?

Statistique de test et rgion critique

La statistique de test est extraite du tableau d'analyse de variance, elle s'crit :

Nous pouvons aussi l'exprimer partir du coefficient de dtermination :

Sous H0, F suit une loi de Fisher F(p, np1). Au risque , la rgion critique (rejet de H0) du test
correspond aux valeurs exceptionnellement grandes de F :

Applications aux donnes sur la consommation des vhicules

La statistique de test est extraite du tableau d'analyse de variance, elle s'crit :


A partir du R, nous obtenons :
Page | 71

En passant par le tableau de lanalyse de variance, nous aurions :

Par ailleurs, on constate que cette valeur est fournie directement par DROITEREG (tableau des calculs
ci-dessus).
Nous comparons la valeur de F avec le quantile dordre 0,95 pour un test 5% (3,24, savoir25 :
F,(3, 24) = 3,00879.
Nous constatons que nous sommes dans la rgion critique. Au risque 5%, nous concluons que le
modle est globalement significatif : la cylindre, la puissance et poids, pris dans leur globalit,
emmnent de linformation pertinente sur la consommation.
En passant par le calcul de la probabilit critique, nous aurions obtenu
'=LOI.F(71,2965;3 ;24)=0,000000000004, largement infrieure = 5%. La conclusion est
cohrente.
8.2. Test de signification d'un coefficient
8.2.1. Dfinition du test

Aprs avoir tabli la significativit globale de la rgression, nous devons valuer la pertinence des
variables prises individuellement. La dmarche est analogue celle dfinie pour la rgression simple.
Toujours parce que e N(0, se ), on montre que :

t(n p 1)

A partir de l, nous pouvons dfinir les tests de significativit des coefficients et les intervalles de
confiance.
Le test consiste opposer :

Le retrait de la variable Xj de la rgression est possible si l'hypothse nulle est vraie. Par rapport aux
autres variables, la contribution de Xj dans l'explication de Y n'est pas significative. Toutefois, des
problmes de colinarit peuvent parfois perturber les rsultats. Nous en reparlerons lors du traitement
du fichier "Consommation de vhicules".
La statistique de test s'crit :

Et la rgion critique pour un risque , le test tant bilatral :

8.2.2.

Application sur la consommation des vhicules

La fonction DROITEREG nous donne la fois a et s


. Nous sommes arms pour dfinir les tests de
significativit (tableau suivant) :
25

INVERSE.LOI.F(0,05 ;3 ;24) dans EXCEL.


Page | 72

R
F
SCE

t-calcul
ddl

DROITEREG
poids
puissance cylindree
Constante
0,00423
0,01825
0,00049
1,7020
0,00094
0,01424
0,00078
0,63205
0,89911
0,75224
#N/A
#N/A
71,29651
24,00000
#N/A
#N/A
121,03183
13,58067
#N/A
#N/A
SCR
Test de significativit des coefficients
4,51838
1,28161
0,63304
2,6929
24
24
24
24

t-thorique

2,06390

2,06390

2,06390

2,0639

p-value

0,00014

0,21222

0,53269

0,0127

Dans le tableau ci-dessus, la statistique et les p-values de test ont t calcules pour chaque variable :

Pour un risque = 5%, le seuil critique est gal t1-5%/2(24) = LOI.STUDENT.INVERSE(5% ;24)= 2,06390.
Nous constatons que seul le coefficient a3 associ (X3 - Poids) est significatif, puisque t = 4,51838|
> t0,975 = 2,06390.
Nous constatons que ni cylindre , ni puissance en revanche ne semblent par expliquer
significativement la consommation des vhicules. Ce rsultat parait trange pour les spcialistes de ce
domaine. Cet aspect sexplique simplement par la forte corrlation entre les variables cylindre et
puissance. En effet, le coefficient de corrlation entre ces deux variables est gal 0,94755. Les deux
variables se neutralisent dans la rgression. Cest le problme de colinarit. Cet aspect sera dvelopp
dans la suite de ce support.
9. Infrence sur les coefficients
9.1. Intervalle de confiance
La distribution de a trouv ci-dessus est valable quel que soit le voisinage. Nous pouvons dfinir
facilement un intervalle de confiance des coefficients au niveau de confiance (1-) avec :

Le tableau suivant donne cet intervalle pour les variables explicatives en utilisant la fonction
DROITEREG du logiciel EXCEL et en procdant des calculs intermdiaires.

Page | 73

Intervalle de confiance des coefficients


DROITEREG
poids
puissance cylindree
Constante
0,00423
0,01825
0,00049
1,7020
0,00094
0,01424
0,00078
0,63205
R
0,89911
0,75224
#N/A
#N/A
F
71,29651
24,00000
#N/A
#N/A
SCE
121,03183
13,58067
#N/A
#N/A
SCR
t_(1-alpha/2)
2,06390
2,06390
2,06390
2,06390
b.basse
b.haute

0,00230
0,00616

-0,01114
0,04764

-0,00112
0,00210

0,39756
3,00654

10.
Prdiction ponctuelle et par intervalle
10.1. Prdiction ponctuelle
Comme pour la rgression linaire simple, il s'agit, pour un nouvel individu i, de fournir une
prdiction de la valeur de l'endogne y partir de sa description cest dire les valeurs prises par les
exognes (xi,1, . . . , xi,p).
La prdiction ponctuelle est obtenue en appliquant les coefficients estims sur la description de
l'individu traiter.

L'expression est plus facile manipuler en utilisant la notation matricielle :

O Xi* est un vecteur ligne de dimension (1, p+1) : Xi* = (1 ; x Xi*,1, , Xi*,p). La premire valeur 1
permet de prendre en compte la constante a. Le rsultat est bien un scalaire puisque a est de
dimension (p + 1, 1).
On peut montre que la prdiction ponctuelle est sans biais. Pour ce faire, intressons nous l'erreur de
prdiction e .

Par consquent, la prdiction ponctuelle est sans biais :

10.2. Prdiction par intervalle


Pour construire l'intervalle de prdiction (la fourchette), nous devons connatre la variance estime de
l'erreur de prdiction et la distribution de cette dernire. L'esprit de l'approche a dj t dveloppe
lors de la prsentation de la rgression simple. Nous donnons directement les rsultats.
Concernant la variance estime de l'erreur de prdiction, nous avons :

Page | 74

L'analogie avec la rgression simple est totale. Le ratio erreur/cart-type est distribu selon une loi de
Student (n-p-1) degrs de libert :

t(n-p-1)
On en dduit l'intervalle de confiance au niveau de confiance (1 ) :

10.3. Application sur le modle consommation des vhicules


Nous souhaitons prdire la consommation d'un vhicule prsentant les caractristiques suivantes :
cylindre = 1984 cm3, puissance = 85 ch et poids = 1155 kg.
Le tableau suivant rsume lensemble des calculs. Nous obtenons la prdiction en appliquant les
coefficients estims du modle sur cette configuration.

const
1
constante
cylindre
puissance
poids
(X'X)^-1
constante
cylindre
puissance
poids
Levier

cylindre
1984

puissance
85

1,70205
0,00049
0,01825
0,00423
constante
0,706
0,000
0,006
-0,001

Poids
1155
p.ponctuelle
9,12

cylindre
0,000
0,000
0,000
0,000

puissance
0,006
0,000
0,000
0,000

poids
-0,001
0,000
0,000
0,000

0,05910
0,56586
0,59931

t_0.95 (24)
b.basse
b.haute

2,06390
7,52
10,71

Page | 75

11. Rgressions avec variables auxiliaires binaires et factices


Les corrlations et rgressions multiples peuvent inclure des variables indpendantes dichotomiques,
par exemple sexe des individus. Ils sont interprter de la mme faon que nous le faisons pour toute
autre variable.
Linclusion de variables indpendantes dichotomiques, mme nominales, dans les analyses de
rgression et corrlation est assez facile. La mthode est exactement la mme que pour les autres
variables. Mais les variables nominales qui ont plus de deux valeurs sont plus compliques
manipuler. Elles doivent tre transformes en variables factices avant dtre introduites dans le modle
de rgression. Une variable factice na que deux valeurs, 0 et 1 : 0 indiquant labsence dun attribut et
1 en indiquant la prsence. Voici comment procder par exemple pour la variable tat matrimonial .
les modalits et leurs tiquettes sont :
1
2
3
4

Clibataire
Mari(e)
Veuf(ve)
Divorc(e)

Nous crons quatre variables factices qui contiennent linformation concernant ltat matrimonial
du rpondant :
Variables factices
Emat_clibataire
Emat_mari
Emat_veuf
Emat_divorc

Code
1 si clibataires
0 autrement
1 si maris(e)
0 autrement
1 si veufs(ves)
0 autrement
1 si divorcs(es)
0 autrement

Les clibataires seront cods 1 pour la variable Emat_Clibataire et 0 pour les autres variables
factices. Les maris(e) seront cods 1 seulement pour la variable Emat_mari et 0 pour les autres
variables. Les veufs(ves) seront cods 1 seulement pour la variable Emat_veuf et 0 pour les autres
variables. Les divorcs(es) seront cods 1 seulement pour la variable Emat_divorc et 0 pour les
autres variables.
12. Points aberrants et points influents
12.1. Dtection
Le diagnostic au regard des observations vise dterminer si certaines observations prsentent des
valeurs extrmes. Fondamentalement, on peut sy intresser selon trois aspects. Le premier est associ
aux valeurs extrmes de la diffrence entre les valeurs relles et prdites de la variable dpendante : il
sagit alors dindices de distance. Le second implique les variables indpendantes et a pour objectif de
vrifier si lensemble des variables indpendantes sloigne de manire importante de la moyenne de
chacune delle : il sagit maintenant de la force de levier. Enfin, on peut combiner ces deux aspects :
on parlera alors dun indice dinfluence de chacune des observations.
En rgression linaire, il existe des mthodes qui permettent de dtecter les valeurs aberrantes, cest
dire les donnes qui sloignent fortement de la droite de rgression, et les valeurs influentes, cest
dire celles qui apportent une forte contribution dans le calcul de la droite de rgression. Ces mthodes
sont souvent runies sous le nom de diagnostics .
Page | 76

L'objectif de la dtection des points aberrants et influents est de reprer des points qui jouent un rle
anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal ce
qui suit :
- L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection
univarie car nous tudions les variables individuellement.
- Une combinaison de valeurs chez les exognes est inhabituelle.
- L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la
relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev.
- L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus
(prdiction, coefficient, ...) sont trs diffrents selon que nous l'intgrons ou non dans la rgression.
Pour illustrer cet aspect, nous utiliserons les donnes relatives la consommation des vhicules mais
avec p= 4 variables explicatives : le prix, la cylindre, la puissance et le poids. Nous disposons de
n=31 observations.
12.1.1. Dtection univarie

L'outil le plus simple pour se faire une ide de la distribution d'une variable continue est la bote
moustaches, dite box-plot. Elle offre une vue synthtique sur plusieurs indicateurs importants : le
premier quartile (Q1), la mdiane (Me) et le troisime quartile (Q3). On peut aussi comprendre
visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3 - Q1).
On pense tort que les extrmits de la bote correspondent aux valeurs minimales et maximales. En
ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs
aberrantes sont dfinies par les rgles suivantes :
LIF = Q 1,5 x IQ 

UIF = Q + 1,5 x IQ

o LIF signifie "lower inner fence" et UIF "upper inner fence".

Les points situs au del de ces limites sont souvent juges atypiques. Il convient de se pencher
attentivement sur les observations correspondantes.
Application sur les donnes consommation des vhicules
Pour la variable endogne (Figure suivante), nous dtectons immdiatement 2 observations suspectes
qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et la Mercedes S 600.
Figure. Boxplot de la variable endogne "consommation (y)"
2 observations se dmarquent

Page | 77

Le rsultat de cet exercice sur toutes les variables est donn par le tableau suivant :
Dtection univarie des points atypiques pour chaque variable
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Type de vhicule
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Ferrari 456 GT
Mercedes S 600
Maserati Ghibli GT
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Mitsubishi Galant
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut

Prix
11 600
12 490
10 450
17 140
14 825
13 730
19 490
285 000
183 900
92 500
25 000
22 350
36 600
22 500
31 580
28 750
22 600
20 300
19 900
39 800
19 740
38 990
50 800
36 200
31 990
47 700
36 950
26 950
36 400
50 900
49 300

Cylindre
846
993
899
1 390
1 195
658
1 331
5 474
5 987
2 789
1 597
1 761
2 165
1 983
1 984
1 998
1 580
1 390
1 396
2 435
1 242
2 972
2 958
2 497
1 998
2 496
1 998
1 997
1 984
2 438
2 473

Q1
Q3
IQ

19 820,0
39 395,0
19 575,0

1 390,0
2 455,5
1 065,5

LIF
UIF

9 542,5
68 757,5

208,3
4 053,8

Puissance
32
39
29
44
33
32
55
325
300
209
74
74
101
85
85
89
65
54
66
106
55
107
150
122
66
125
89
92
85
97
125

Poids
650
790
730
955
895
740
1 010
1 690
2 250
1 485
1 080
1 100
1 500
1 075
1 155
1 140
1 080
1 110
1 140
1 370
940
1 400
1 550
1 330
1 300
1 670
1 560
1 240
1 635
1 800
1 570

55,0
106,5
51,5

1 042,5
1 525,0
482,5

7,3
11,7
4,4

22,3
183,8

318,8
2 248,8

0,7
18,3

5,7
5,8
6,1
6,5
6,8
6,8
7,1
21,3
18,7
14,5
7,4
9
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
7,6
11,3
10,8
9,2
11,6
12,8
12,7

Points suspects fichier CONSO : dtection univarie

12.1.2. Dtection multivarie sur les exognes : Force du levier

La dtection univarie donne dj des informations intressantes. Mais elle prsente le dfaut de ne
pas tenir compte des interactions entre les variables. Dans cette section, nous tudions un outil capital
pour l'tude des points aberrants et influents : la force du levier.
Son interprtation est relativement simple. Il indique, pour l'observation i, la distance avec le centre de
gravit du nuage de points dans l'espace dfini par les exognes. La prise en compte de la
configuration des points dans l'espace de reprsentation permet de mieux juger de l'loignement d'une
observation par rapport aux autres.
Page | 78

Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H, dite Hat Matrix
(matrice chapeau), dfinie de la manire suivante : H = X(X X)X .
Elle provient en fait de la formule matricielle de base pour calculer les coefficients de rgression.
y = X a = X(X X)X y = Hy

La matrice H joue un rle trs important dans la rgression, elle permet de passer des valeurs
observes de Y vers les valeurs prdites
Y, elle permet aussi le passage de l'erreur thorique vers les

rsidus observs e: e = [I X(X X) X ]e = (I H)e. En effet,


e = Y
Y = (Xa + e) Xa (1)

Or a = a + (XX)X e (1) devient e = (Xa + e) X (a + (XX)X e)


Ou encore e = [I X(XX)X ]e = (I H)e ; avec H = X(X X)X

Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments
de la diagonale principale hii, on parle de levier car il dtermine l'influence de l'observation i sur les
estimateurs obtenus par les moindres carrs. Mme s'il n'utilise que les informations en provenance des
exognes Xj, le champ d'action du levier dpasse la dtection multivarie des points aberrants. Nous le
retrouverons dans la grande majorit des formules de dtection des points aberrants et influents que
nous prsenterons dans la suite de ce paragraphe.
Concernant le calcul des lments de la matrice H(n,n), il est possible d'en calculer uniquement les
lments diagonaux en utilisant la formule suivante :
h = h = X(XX) X ; o xi reprsente la ime ligne de la matrice X.

Nous avons la proprit suivante : H = H.


Rgion critique
On peut dmontrer que : 0 hii 1.

En effet, puisque les matrices H et H2 sont gales, nous avons en particulier hii = (H2)ii. Cela scrit, en
utilisant la symtrie de H : h = hh = h+ h h(1 h) = h
Puisque la quantit h
est positive, alors h(1 h) 0 0 hii 1.

Nous avons aussi h = p + 1 ; o p + 1 est le nombre de coefficients estimer dans une


rgression avec constante.
Nous disposons d'un indicateur. Il nous faut maintenant dterminer partir de quelle valeur de hi nous
devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique qui
permet d'indiquer qu'un point est "suspect" ?
Les statisticiens considrent que le levier d'une observation est anormalement lev quand :
()
. > 2 x .
Application sur les donnes Consommation des vhicules
Lapplication des calculs ci-dessus sur les donnes de la consommation des vhicules est rsume par
le tableau suivant. La valeur de coupure est de 2

()

= 0,323. En utilisant ce critre, on remarque

que 3 points se dmarquent immdiatement26, les mmes que pour la dtection univarie : la Ferrari (h8
= 0,869), la Mercedes (h9 = 0,484) et la Maserati (h10 = 0,642).
26

Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines (Mercedes) ou des vhicules
sportifs (Ferrari, Maserati).
Page | 79

i
8
10
9
30
22
29
27
23
6
1
26
24
25
3
14
5
2
31
4
13
16
21
19
18
20
7
28
12
15
11
17

Type de vhicule
Cste
Ferrari 456 GT
1
Maserati Ghibli GT
1
Mercedes S 600
1
Toyota Previa salon
1
Hyundai Sonata 3000
1
Seat Alhambra 2.0
1
Peugeot 806 2.0
1
Lancia K 3.0 LS
1
Subaru Vivio 4WD
1
Daihatsu Cuore
1
Opel Omega 2.5i V6
1
Mazda Hachtback V
1
Mitsubishi Galant
1
Fiat Panda Mambo L
1
Seat Ibiza 2.0 GTI
1
Opel Corsa 1.2i Eco
1
Suzuki Swift 1.0 GLS
1
Volvo 960 Kombi aut
1
VW Polo 1.4 60
1
Renault Safrane 2.2. V
1
Citroen ZX Volcane
1
Ford Fiesta 1.2 Zetec
1
Honda Civic Joker 1.4
1
Fort Escort 1.4i PT
1
Volvo 850 2.5
1
Toyota Corolla
1
Nissan Primera 2.0
1
Peugeot 306 XS 108
1
VW Golt 2.0 GTI
1
Opel Astra 1.6i 16V
1
Fiat Tempra 1.6 Liberty
1

Prix
285 000
92 500
183 900
50 900
38 990
36 400
36 950
50 800
13 730
11 600
47 700
36 200
31 990
10 450
22 500
14 825
12 490
49 300
17 140
36 600
28 750
19 740
19 900
20 300
39 800
19 490
26 950
22 350
31 580
25 000
22 600

Cylindre Puissance
5 474
325
2 789
209
5 987
300
2 438
97
2 972
107
1 984
85
1 998
89
2 958
150
658
32
846
32
2 496
125
2 497
122
1 998
66
899
29
1 983
85
1 195
33
993
39
2 473
125
1 390
44
2 165
101
1 998
89
1 242
55
1 396
66
1 390
54
2 435
106
1 331
55
1 997
92
1 761
74
1 984
85
1 597
74
1 580
65

Poids
1 690
1 485
2 250
1 800
1 400
1 635
1 560
1 550
740
650
1 670
1 330
1 300
730
1 075
895
790
1 570
955
1 500
1 140
940
1 140
1 110
1 370
1 010
1 240
1 100
1 155
1 080
1 080

=2

(4 + 1)
31

= 0,323

Y Rsidus Levier
21,3
0,610 0,869
14,5
0,149 0,642
18,7
-1,374 0,484
12,8
0,611 0,315
11,7
1,436 0,275
11,6
0,466 0,226
10,8
-0,126 0,152
11,9
-0,311 0,150
6,8
0,514 0,143
5,7
-0,074 0,140
11,3
-0,953 0,128
10,8
0,272 0,123
7,6
-1,568 0,114
6,1
0,118 0,113
9,5
0,980 0,105
6,8
0,091 0,101
5,8
-0,676 0,092
12,7
0,819 0,087
6,5
-0,684 0,081
11,7
0,815 0,077
8,8
-0,211 0,062
6,6
-0,923 0,062
7,7
-0,857 0,060
8,6
0,457 0,058
10,8
0,401 0,058
7,1
-0,665 0,051
9,2
-0,266 0,051
9
0,543 0,049
9,5
0,462 0,048
7,4
-1,110 0,044
9,3
1,055 0,041

12.1.3. Rsidus studentiss

Le rsidu standardis s'intresse l'importance du rsidus observ : e = y y. S'il est anormalement


lev, en valeur absolue, le point a t mal reconstitu par le modle : il s'carte videmment de la
relation modlise entre les exognes et l'endogne.
Si par hypothse, la variance de lerreur se = se

est constante, alors se = se (1 h). Nous

devons donc normaliser le rsidu par son cart-type pour rendre les carts comparables dune
observation lautre.
Lorsque nous travaillons sur un chantillon, nous ne disposons pas de la vraie valeur de se , nous
estimons la variance des rsidus avec : s
e = s
e (1 h) ; o hi est lue dans la matrice H,
e

s
e =
est lestimateur de la variance de lerreur.

Le rsidu standardis est dfini par le rapport : t =

s
e

s
e ()

Rgion critique
Pour dcider du statut d'un point, il nous faut dfinir une valeur seuil au del de laquelle le rsidu
standardis est anormalement lev (en valeur absolue).
Par hypothse, nous avons e N(0, se ), nous dduisons que e N(0, se). Donc, s
e suit une loi du
(n-p-1) degrs de libert.

Le rsidu standardis, dfini par le rapport entre une loi normale et la racine carr dune loi du
normalise, suit une loi de student (n-p-1) degrs de libert : ti t (n-p-1).
Page | 80

Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (aberrante)
lorsque : . : |t | > t a (n p 1), o t a (n p 1) est le fractile dordre 1-/2 de la loi de

Student (n-p-1) degrs de libert. Il sagit bien dun test bilatral. Le rsidu est suspect sil est
particulirement lev en valeur absolue.
En rsum, un point apparat comme aberrant avec un rsidu standardis lev si :

- il est mal prdit c.--d. e est lev ;


- le point est loign des autres dans l'espace des exognes ; en effet, plus hi est lev (hi 1), plus (1
- hi) 0, et le rapport est lev.
Application sur les donnes Consommation des vhicules
Le tableau suivant donne les rsultats de cet exercice pour les donnes sur la consommation des
vhicules. Il sagit de comparer la valeur absolue de la colonne avec la valeur seuil t0,975(31-4-1=26) =
2,056 pour un risque 5%.
Nous pouvons trier, par ordre dcroissant, les donnes de ce tableau selon |ti|. Les vhicules suspects
sont trs facilement mis en vidence.
Observations tries selon la valeur
absolue du rsidu studentis
0,323
i

9
22
8
25
11
17
14
26
21
19
31
13
30
4
2
7
12
6
29
15
18
20
23
24
28
10
16
27
3
5
1

Type de vhicule

Mercedes S 600
Hyundai Sonata 3000
Ferrari 456 GT
Mitsubishi Galant
Opel Astra 1.6i 16V
Fiat Tempra 1.6 Liberty
Seat Ibiza 2.0 GTI
Opel Omega 2.5i V6
Ford Fiesta 1.2 Zetec
Honda Civic Joker 1.4
Volvo 960 Kombi aut
Renault Safrane 2.2. V
Toyota Previa salon
VW Polo 1.4 60
Suzuki Swift 1.0 GLS
Toyota Corolla
Peugeot 306 XS 108
Subaru Vivio 4WD
Seat Alhambra 2.0
VW Golt 2.0 GTI
Fort Escort 1.4i PT
Volvo 850 2.5
Lancia K 3.0 LS
Mazda Hachtback V
Nissan Primera 2.0
Maserati Ghibli GT
Citroen ZX Volcane
Peugeot 806 2.0
Fiat Panda Mambo L
Opel Corsa 1.2i Eco
Daihatsu Cuore

Cste

Prix

1 183 900
1 38 990
1 285 000
1 31 990
1 25 000
1 22 600
1 22 500
1 47 700
1 19 740
1 19 900
1 49 300
1 36 600
1 50 900
1 17 140
1 12 490
1 19 490
1 22 350
1 13 730
1 36 400
1 31 580
1 20 300
1 39 800
1 50 800
1 36 200
1 26 950
1 92 500
1 28 750
1 36 950
1 10 450
1 14 825
1 11 600

Cylindre Puissance

5 987
2 972
5 474
1 998
1 597
1 580
1 983
2 496
1 242
1 396
2 473
2 165
2 438
1 390
993
1 331
1 761
658
1 984
1 984
1 390
2 435
2 958
2 497
1 997
2 789
1 998
1 998
899
1 195
846

300
107
325
66
74
65
85
125
55
66
125
101
97
44
39
55
74
32
85
85
54
106
150
122
92
209
89
89
29
33
32

Poids

2 250
1 400
1 690
1 300
1 080
1 080
1 075
1 670
940
1 140
1 570
1 500
1 800
955
790
1 010
1 100
740
1 635
1 155
1 110
1 370
1 550
1 330
1 240
1 485
1 140
1 560
730
895
650

18,7
11,7
21,3
7,6
7,4
9,3
9,5
11,3
6,6
7,7
12,7
11,7
12,8
6,5
5,8
7,1
9
6,8
11,6
9,5
8,6
10,8
11,9
10,8
9,2
14,5
8,8
10,8
6,1
6,8
5,7

Seuils
2,056

Rsidus Levier

-1,374
1,436
0,610
-1,568
-1,110
1,055
0,980
-0,953
-0,923
-0,857
0,819
0,815
0,611
-0,684
-0,676
-0,665
0,543
0,514
0,466
0,462
0,457
0,401
-0,311
0,272
-0,266
0,149
-0,211
-0,126
0,118
0,091
-0,074

0,484
0,275
0,869
0,114
0,044
0,041
0,105
0,128
0,062
0,060
0,087
0,077
0,315
0,081
0,092
0,051
0,049
0,143
0,226
0,048
0,058
0,058
0,150
0,123
0,051
0,642
0,062
0,152
0,113
0,101
0,140

Rsidus
Studentiss

2,3416
2,0632
2,0574
2,0375
1,3896
1,3185
1,2672
1,2491
1,1666
1,0810
1,0479
1,0379
0,9040
0,8725
0,8679
0,8354
0,6807
0,6794
0,6487
0,5793
0,5762
0,5049
0,4128
0,3549
0,3335
0,3039
0,2663
0,1670
0,1537
0,1170
0,0975

Aussi, il est plus pratique de construire un graphique des rsidus en mettant en abscisse l'endogne et
en ordonne le rsidu standardis. Nous traons alors une ligne matrialisant les valeurs seuils
-t0,975(26) et + t0,975(26).
Graphique. Rpartition des rsidus studentiss
selon lendogne

Page | 81

Les calculs aboutissent des rsultats contrasts, correspondant des situations trs diffrentes.
- La Mercedes cumule un rsidu fort (-1,374) et un levier lev (0,484). Ce type de vhicule appartient
une catgorie spcifique qui n'a rien en commun avec les voitures recenss dans ce fichier.
- La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs diffrente des autres (h = 0,869). Le
rsidu brut e = 0,610 n'est pas trs lev, on prdit correctement sa consommation au regard de ses
caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un vhicule
bien particulier.
- La Hyundai Sonata 3000 est devenue, selon cette approche, un vhicule particulier (point aberrant).
Malgr quelle a un levier au dessous du seuil (0,275), son rsidu rapport l'cart-type dpasse un
petit peu le seuil fix.
- Avec un rsidu studentis qui galise la valeur 0,304, la Maserati Ghibli GT nest plus considre
comme vhicule particulier mme si on augmente le risque (10% par exemple).
12.1.4. Rsidus studentiss supprims

Le rsidu standardis est un indicateur certes intressant mais il prsente un inconvnient fort : nous
valuons l'importance du rsidu e d'une observation qui a particip la construction de la droite de
rgression. De fait, le point est juge et partie dans l'valuation : on l'utilise pour construire le modle,
puis on regarde s'il a bien t modlis. Si l'observation est fortement influente, au sens qu'elle "tire"
exagrment les rsultats de manire prsenter un rsidu brut trs faible e@ 0 , nous conclurons
tort qu'elle est bien reconstitue et donc ne fausse en rien les rsultats de la modlisation.
Il faudrait mettre en place une procdure qui permet de confronter les rsultats selon qu'une
observation participe ou non aux calculs. Parmi les pistes possibles, nous nous penchons sur l'erreur de
prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du
modle utilis pour prdire la valeur y. Le rsidu studentis, on parle de rsidu studentis externe ou
rsidu studentis supprim pour SPSS ou certains ouvrages, s'appuie sur ce principe. Le rsidu
studentis supprim utilise la procdure suivante :
Pour chaque observation i :
- Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.
- Nous effectuons la prdiction sur l'observation i en donne supplmentaire y(i).

Page | 82

- Nous obtenons aussi l'estimation de l'cart-type des erreurs s


e (i), le levier h(i)) obtenu avec la

formule h(i) = x(X


X) o X correspond la matrice des X sans la ligne numro i.
- A l'instar du rsidu standardis, nous formons le rsidu studentis supprim partir du rapport :

()

s
e ()()(

Une autre interprtation


Il existe une autre manire de calculer le rsidu studentis. Elle ne facilite pas spcialement les
calculs. En revanche, elle a le mrite de mettre en lumire la loi de distribution que nous pourrons
utiliser par la suite pour dfinir la rgion critique du test.
Le principe est le suivant, nous effectuons n rgressions avec toutes les observations. Pour la
rgression numro i, nous introduisons une variable muette z dfinie de la manire suivante :
z = 1 pour l'observation numro i
= 0 sinon
La rgression numro i s'crit donc de la manire suivante :

Le rsidu studentis correspond au t de Student du test de significativit du coefficient b. Nous savons


que cette statistique suit une loi de Student t (n - p - 2) (n - p - 2) degrs de libert. En effet, il y a
bien (p + 2) coefficients estimer dans l'quation ci-dessus.
Calcul pratique
Si le concept sous-jacent semble relativement simple, il reste produire les rsultats. Quelle que soit
l'approche adopte, il faudrait effectuer n rgressions. Si n est lev, le calcul est trs lourd, il peut se
rvler rdhibitoire.
A ce stade intervient une proprit remarquable du rsidu studentis : il est possible de le calculer pour
chaque observation i sans avoir procder explicitement aux n rgressions. Nous utilisons pour cela
d'une formule de transformation du rsidu standardis :

= , ainsi le calcul supplmentaire demand est ngligeable.

Rgion critique
A partir de la formulation sous forme d'quation de rgression, il est possible d'crire rigoureusement
le test d'hypothses permettant de dterminer si une observation est aberrante/influente ou non. On
oppose :
H : b = 0

H: b 0

Sous H, la statistique t t(n p 2) (n - p - 2) degrs de libert, on en dduit la rgion critique

du test : . : |t | > t a (n p 2) ; O t a (n p 2) est le fractile dordre 1-/2 de la loi de

Student (n-p-2) degrs de libert. Il sagit bien dun test bilatral. Le rsidu est suspect sil est
particulirement lev en valeur absolue.

Application sur les donnes Consommation des vhicules


Le tableau suivant donne les rsultats de cet exercice pour les donnes sur la consommation des
vhicules. Il sagit de comparer la valeur absolue de la colonne avec la valeur seuil t0,975(31-4-2=25) =
2,0595 pour un risque 5%.
Page | 83

Nous pouvons trier, par ordre dcroissant, les donnes de ce tableau selon |t |. Les vhicules suspects
sont trs facilement mis en vidence.
Observations tries selon la valeur
absolue des rsidus studentiss supprims
0,323
i

Type de vhicule

9
22
8
25
11
17
14
26
21
19
31
13
30
4
2
7
12
6
29
15
18
20
23
24
28
10
16
27
3
5
1

Mercedes S 600
Hyundai Sonata 3000
Ferrari 456 GT
Mitsubishi Galant
Opel Astra 1.6i 16V
Fiat Tempra 1.6 Liberty
Seat Ibiza 2.0 GTI
Opel Omega 2.5i V6
Ford Fiesta 1.2 Zetec
Honda Civic Joker 1.4
Volvo 960 Kombi aut
Renault Safrane 2.2. V
Toyota Previa salon
VW Polo 1.4 60
Suzuki Swift 1.0 GLS
Toyota Corolla
Peugeot 306 XS 108
Subaru Vivio 4WD
Seat Alhambra 2.0
VW Golt 2.0 GTI
Fort Escort 1.4i PT
Volvo 850 2.5
Lancia K 3.0 LS
Mazda Hachtback V
Nissan Primera 2.0
Maserati Ghibli GT
Citroen ZX Volcane
Peugeot 806 2.0
Fiat Panda Mambo L
Opel Corsa 1.2i Eco
Daihatsu Cuore

Rsidus Levier
-1,374
1,436
0,610
-1,568
-1,110
1,055
0,980
-0,953
-0,923
-0,857
0,819
0,815
0,611
-0,684
-0,676
-0,665
0,543
0,514
0,466
0,462
0,457
0,401
-0,311
0,272
-0,266
0,149
-0,211
-0,126
0,118
0,091
-0,074

Seuils
2,056

2,060

Rsidus
R_Stud_Supp
Studentiss

0,484
0,275
0,869
0,114
0,044
0,041
0,105
0,128
0,062
0,060
0,087
0,077
0,315
0,081
0,092
0,051
0,049
0,143
0,226
0,048
0,058
0,058
0,150
0,123
0,051
0,642
0,062
0,152
0,113
0,101
0,140

2,3416
2,0632
2,0574
2,0375
1,3896
1,3185
1,2672
1,2491
1,1666
1,0810
1,0479
1,0379
0,9040
0,8725
0,8679
0,8354
0,6807
0,6794
0,6487
0,5793
0,5762
0,5049
0,4128
0,3549
0,3335
0,3039
0,2663
0,1670
0,1537
0,1170
0,0975

2,5848
2,2123
2,2049
2,1795
1,4162
1,3384
1,2829
1,2634
1,1751
1,0847
1,0500
1,0395
0,9007
0,8684
0,8636
0,8304
0,6735
0,6722
0,6414
0,5717
0,5687
0,4975
0,4062
0,3488
0,3277
0,2985
0,2615
0,1638
0,1508
0,1148
0,0956

Nous constatons que ce sont les mmes points que prcdemment qui se dmarquent (Mercedes S600,
Hyundai Sonata 3000, Ferrari 456 GT), avec ajout dun autre vhicule : il sagit de la Mitsubishi
Galant.
12.1.5. Autres indicateurs usuels

D'autres indicateurs de points aberrants/influents sont couramment rencontrs dans les logiciels
statistiques. Dans la suite de ce paragraphe, nous allons les numrer en mettant l'accent sur 3 aspects :
le principe, la formule et la rgle de dtection.
DFFITS
Le DFFITS s'appuie sur le mme principe que le rsidu studentis supprim, mais il compare cette
fois-ci la prdiction en resubstitutiant
et la prdiction en donne supplmentaire
(). Dans le
premier cas, l'observation a particip la construction du modle de prdiction, dans le second, non.
Nous pouvons ainsi mesurer l'influence du point sur la rgression.
Le DFFITS est normalise de la manire suivante : DFFITS =

()

s
e ()

Nous considrons une observation est aberrante lorsque : R.C : |DFFITS| > 2

.
Page | 84

Il n'est heureusement pas ncessaire d'effectuer les n rgressions pour calculer les DFFITSi, on peut

l'obtenir partir du rsidu studentis. DFFITS = t .

Aprs avoir fait le calcule, et pour mettre en vidence les ponts suspects, il faut trier par ordre
dcroissant les observations selon |DFFITS|.
Observations tries selon la valeur
absolue des DFFITS
0,323
i

8
9
22
25
30
26
14
10
29
31
11
21
13
17
2
6
19
4
7
23
12
18
24
15
20
28
27
16
3
1
5

Type de vhicule

Rsidus Levier

Ferrari 456 GT
Mercedes S 600
Hyundai Sonata 3000
Mitsubishi Galant
Toyota Previa salon
Opel Omega 2.5i V6
Seat Ibiza 2.0 GTI
Maserati Ghibli GT
Seat Alhambra 2.0
Volvo 960 Kombi aut
Opel Astra 1.6i 16V
Ford Fiesta 1.2 Zetec
Renault Safrane 2.2. V
Fiat Tempra 1.6 Liberty
Suzuki Swift 1.0 GLS
Subaru Vivio 4WD
Honda Civic Joker 1.4
VW Polo 1.4 60
Toyota Corolla
Lancia K 3.0 LS
Peugeot 306 XS 108
Fort Escort 1.4i PT
Mazda Hachtback V
VW Golt 2.0 GTI
Volvo 850 2.5
Nissan Primera 2.0
Peugeot 806 2.0
Citroen ZX Volcane
Fiat Panda Mambo L
Daihatsu Cuore
Opel Corsa 1.2i Eco

Le seuil tant gal 2

0,610
-1,374
1,436
-1,568
0,611
-0,953
0,980
0,149
0,466
0,819
-1,110
-0,923
0,815
1,055
-0,676
0,514
-0,857
-0,684
-0,665
-0,311
0,543
0,457
0,272
0,462
0,401
-0,266
-0,126
-0,211
0,118
-0,074
0,091

0,869
0,484
0,275
0,114
0,315
0,128
0,105
0,642
0,226
0,087
0,044
0,062
0,077
0,041
0,092
0,143
0,060
0,081
0,051
0,150
0,049
0,058
0,123
0,048
0,058
0,051
0,152
0,062
0,113
0,140
0,101

2,056

Seuils
2,060

Rsidus
R_Stud_Supp
Studentiss

2,0574
2,3416
2,0632
2,0375
0,9040
1,2491
1,2672
0,3039
0,6487
1,0479
1,3896
1,1666
1,0379
1,3185
0,8679
0,6794
1,0810
0,8725
0,8354
0,4128
0,6807
0,5762
0,3549
0,5793
0,5049
0,3335
0,1670
0,2663
0,1537
0,0975
0,1170

0,803
DFFITS

2,2049
2,5848
2,2123
2,1795
0,9007
1,2634
1,2829
0,2985
0,6414
1,0500
1,4162
1,1751
1,0395
1,3384
0,8636
0,6722
1,0847
0,8684
0,8304
0,4062
0,6735
0,5687
0,3488
0,5717
0,4975
0,3277
0,1638
0,2615
0,1508
0,0956
0,1148

5,6685
2,5048
1,3611
0,7800
0,6114
0,4837
0,4393
0,3996
0,3464
0,3232
0,3037
0,3023
0,3010
0,2778
0,2746
0,2743
0,2741
0,2576
0,1935
0,1709
0,1523
0,1412
0,1308
0,1278
0,1234
0,0756
0,0694
0,0674
0,0538
0,0385
0,0385

=0,803, nous constatons que la Ferrari 456 GT(tout particulirement), la

Mercedes S 600 et la Hyundai Sonata 3000 se dmarquent toujours.


Distance de COOK
La distance de COOK gnralise le DFFITS dans le sens o, au lieu de mesurer l'effet de la
suppression de l'observation i sur la prdiction de yi, il mesure son effet sur la prdiction des n valeurs
de l'endogne.
La formulation de la distance de Cook Di est la suivante : D =

()]
s

e ()

Il nous faut dfinir la valeur seuil partir de laquelle nous pouvons dire que le point est aberrant.
La rgle la suivante : R.C : D >

Page | 85

De nouveau, il n'est pas question d'effectuer les n rgressions en supprimant tour tour chaque
observation. Nous pouvons grandement simplifier les calculs en drivant la distance de Cook partir
des rsidus standardiss : D =

() ()

Observations tries selon la valeur


des D de Cook
0,323

8
9
22
25
30
26
14
10
29
31
11
21
13
17
2
6
19
4
7
23
12
18
24
15
20
28
27
16
3
1
5

Ferrari 456 GT
Mercedes S 600
Hyundai Sonata 3000
Mitsubishi Galant
Toyota Previa salon
Opel Omega 2.5i V6
Seat Ibiza 2.0 GTI
Maserati Ghibli GT
Seat Alhambra 2.0
Volvo 960 Kombi aut
Opel Astra 1.6i 16V
Ford Fiesta 1.2 Zetec
Renault Safrane 2.2. V
Fiat Tempra 1.6 Liberty
Suzuki Swift 1.0 GLS
Subaru Vivio 4WD
Honda Civic Joker 1.4
VW Polo 1.4 60
Toyota Corolla
Lancia K 3.0 LS
Peugeot 306 XS 108
Fort Escort 1.4i PT
Mazda Hachtback V
VW Golt 2.0 GTI
Volvo 850 2.5
Nissan Primera 2.0
Peugeot 806 2.0
Citroen ZX Volcane
Fiat Panda Mambo L
Daihatsu Cuore
Opel Corsa 1.2i Eco

Seuils
2,060

0,803

0,154

Rsidus R_Stud_Sup
Rsidus Levier
DFFITS D Cook
Studentiss
p

Type de vhicule

Le seuil tant gal

2,056

0,610
-1,374
1,436
-1,568
0,611
-0,953
0,980
0,149
0,466
0,819
-1,110
-0,923
0,815
1,055
-0,676
0,514
-0,857
-0,684
-0,665
-0,311
0,543
0,457
0,272
0,462
0,401
-0,266
-0,126
-0,211
0,118
-0,074
0,091

0,869
0,484
0,275
0,114
0,315
0,128
0,105
0,642
0,226
0,087
0,044
0,062
0,077
0,041
0,092
0,143
0,060
0,081
0,051
0,150
0,049
0,058
0,123
0,048
0,058
0,051
0,152
0,062
0,113
0,140
0,101

2,0574
2,3416
2,0632
2,0375
0,9040
1,2491
1,2672
0,3039
0,6487
1,0479
1,3896
1,1666
1,0379
1,3185
0,8679
0,6794
1,0810
0,8725
0,8354
0,4128
0,6807
0,5762
0,3549
0,5793
0,5049
0,3335
0,1670
0,2663
0,1537
0,0975
0,1170

2,2049
2,5848
2,2123
2,1795
0,9007
1,2634
1,2829
0,2985
0,6414
1,0500
1,4162
1,1751
1,0395
1,3384
0,8636
0,6722
1,0847
0,8684
0,8304
0,4062
0,6735
0,5687
0,3488
0,5717
0,4975
0,3277
0,1638
0,2615
0,1508
0,0956
0,1148

5,6685
2,5048
1,3611
0,7800
0,6114
0,4837
0,4393
0,3996
0,3464
0,3232
0,3037
0,3023
0,3010
0,2778
0,2746
0,2743
0,2741
0,2576
0,1935
0,1709
0,1523
0,1412
0,1308
0,1278
0,1234
0,0756
0,0694
0,0674
0,0538
0,0385
0,0385

5,5954
1,0298
0,3223
0,1064
0,0753
0,0457
0,0377
0,0331
0,0245
0,0208
0,0178
0,0180
0,0181
0,0150
0,0152
0,0154
0,0149
0,0134
0,0076
0,0060
0,0047
0,0041
0,0035
0,0034
0,0031
0,0012
0,0010
0,0009
0,0006
0,0003
0,0003

= 0,154, nous constatons comme pour lindicateur DFFITS, les trois

vhicules suivant se dmarquent toujours : la Ferrari 456 GT (tout particulirement), la Mercedes S600
et la Hyundai Sonata 3000.
DFBETAS
Nous avons dfinis la distance de Cook comme un cart entre les prdictions. Si l'cart est important,
on peut approfondir l'analyse en essayant d'identifier la variable qui est l'origine de l'cart : c'est le
rle des DFBETAS.
Pour chaque observation i et pour chaque coefficient aj , j = 0; ; p, nous calculons la quantit :
DFBETAS, =

)(

s
e ()()

Page | 86

est l'estimation du coefficient de la variable Xj (a pour la constante) ;


( -i) l'estimation du
o
mme coefficient lorsqu'on a omis l'observation i ; s
e (i) l'estimation de l'cart-type de l'erreur de

rgression sans l'observation i ; (XX) est lue sur la diagonale principale de la matrice (XX)-1.
On considre que l'observation i pse indment sur la variable Xj lorsque :
R.C : |DFBETAS,| >

Encore une fois, il est hors de question d'effectuer n rgressions, on s'en sort en utilisant la formule
suivante : DFBETAS, =

t
.

(
(
)

Appliqu sur les donnes relatives la consommation des vhicules, les DFBETAS nous permettent de
dtecter les points aberrants. On compare les valeurs calcules avec le seuil

= 0,359.

Nous constatons que la Ferrari 456 GT et la Mercedes S 600 psent sur quasiment toutes les variables
ds lors qu'on les retire ou qu'on les rajoute dans les effectifs pour la rgression. La Hyundai Sonata
3000 a aussi une action sur l'ensemble des coefficients mis part la constante. Enfin, la Maserati
Ghibli GT, la Mitsubishi Galant et la Toyota Previa salon agissent de manire ngligeable sur
quelques coefficients (Tableau ci-dessous).
Observations selon la valeur des DFBETAS
Seuil = 0,3592
DFBETASi
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Type de vhicule
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Ferrari 456 GT
Mercedes S 600
Maserati Ghibli GT
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Mitsubishi Galant
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut

Cste

Prix

-0,0361
-0,2353
0,0455
-0,1418
0,0210
0,1934
-0,1104
1,0398
0,8261
0,0431
-0,1770
0,0808
-0,1474
0,2318
0,0592
-0,0334
0,1436
0,0295
-0,0568
-0,0050
-0,2189
-0,0042
0,0198
0,0222
0,1202
0,2891
0,0387
-0,0171
-0,2082
-0,4118
-0,1496

-0,0033
-0,0343
0,0118
-0,0606
0,0151
0,0978
-0,0439
3,4167
0,4977
-0,1451
0,0542
-0,0582
0,0098
-0,2902
-0,0444
0,0392
0,0067
0,0637
-0,0362
-0,0552
-0,0407
-0,5261
0,1351
-0,1092
-0,3202
0,0214
-0,0284
0,0451
0,1634
0,3243
-0,0511

|DFBETASi|

Cylindre Puissance

-0,0017
0,0130
0,0047
-0,1082
0,0121
-0,1274
0,0311
-0,5185
-1,3736
-0,2710
0,0519
0,0515
-0,1119
0,2307
0,0578
-0,0264
0,0275
-0,0294
0,1620
0,0623
0,0701
1,2382
-0,0227
0,0333
-0,3484
0,2247
0,0312
-0,0072
-0,1469
-0,1109
-0,1392

0,0000
0,0014
-0,0102
0,1393
-0,0226
0,0328
0,0172
-0,8377
0,3672
0,3734
-0,0883
0,0068
0,0256
0,0817
-0,0064
-0,0143
-0,0373
-0,0455
-0,0719
-0,0101
-0,0304
-0,5678
-0,0938
0,0674
0,6384
-0,1193
0,0124
-0,0284
-0,0892
-0,2977
0,1143

Poids

Cste

Prix

0,0210
0,1084
-0,0222
0,0754
-0,0075
-0,0162
0,0086
-0,3261
0,4475
0,0049
0,0682
-0,0714
0,2056
-0,3221
-0,0616
0,0403
-0,0485
0,0471
-0,0954
-0,0249
0,0597
-0,6045
0,0387
-0,0615
-0,1940
-0,3439
-0,0613
0,0189
0,3176
0,5301
0,1801

0,0361
0,2353
0,0455
0,1418
0,0210
0,1934
0,1104
1,0398
0,8261
0,0431
0,1770
0,0808
0,1474
0,2318
0,0592
0,0334
0,1436
0,0295
0,0568
0,0050
0,2189
0,0042
0,0198
0,0222
0,1202
0,2891
0,0387
0,0171
0,2082
0,4118
0,1496

0,0033
0,0343
0,0118
0,0606
0,0151
0,0978
0,0439
3,4167
0,4977
0,1451
0,0542
0,0582
0,0098
0,2902
0,0444
0,0392
0,0067
0,0637
0,0362
0,0552
0,0407
0,5261
0,1351
0,1092
0,3202
0,0214
0,0284
0,0451
0,1634
0,3243
0,0511

Cylindre Puissance

0,0017
0,0130
0,0047
0,1082
0,0121
0,1274
0,0311
0,5185
1,3736
0,2710
0,0519
0,0515
0,1119
0,2307
0,0578
0,0264
0,0275
0,0294
0,1620
0,0623
0,0701
1,2382
0,0227
0,0333
0,3484
0,2247
0,0312
0,0072
0,1469
0,1109
0,1392

0,0000
0,0014
0,0102
0,1393
0,0226
0,0328
0,0172
0,8377
0,3672
0,3734
0,0883
0,0068
0,0256
0,0817
0,0064
0,0143
0,0373
0,0455
0,0719
0,0101
0,0304
0,5678
0,0938
0,0674
0,6384
0,1193
0,0124
0,0284
0,0892
0,2977
0,1143

Poids

0,0210
0,1084
0,0222
0,0754
0,0075
0,0162
0,0086
0,3261
0,4475
0,0049
0,0682
0,0714
0,2056
0,3221
0,0616
0,0403
0,0485
0,0471
0,0954
0,0249
0,0597
0,6045
0,0387
0,0615
0,1940
0,3439
0,0613
0,0189
0,3176
0,5301
0,1801

COVRATIO

Page | 87

A la diffrence de la distance de Cook, au lieu de mesurer la disparit entre les estimations des
coefficients, avec ou sans l'intervention de l'observation i, le COVRATIO mesure les disparits entre
les prcisions des estimateurs c'est--dire la variance des estimateurs.
A cet effet, il nous faut proposer une mesure de la variance globale des estimateurs, dite variance
) = s
gnralise, elle est gale : var(
e det(X X) ; o det(XX)-1 est le dterminant de la
matrice (XX)-1.
Le COVRATIOi de l'observation i est construit de la manire suivante : COVRATIO =

())
(
)
(

A partir de quel moment doit-on s'inquiter de l'influence d'une observation ? La rgle de dtection
la plus rpandue est : R.C : |COVRATIO 1| >

()

De manire pratique, les COVRATIOi peut tre calculs partir du rsidu studentis et du levier
comme suit : COVRATIO =

()
()

()

Nous avons calcul pour chaque observation i le COVRATIO pour les donnes relatives la
consommation des vhicules. Les rsultats sont consigns dans le tableau suivant. Ce tableau est tri,
par ordre dcroissant, selon |COVRATIO 1|. Nous retrouvons la Ferrari 456 GT, la Maserati Ghibli
GT et la Toyota Previa salon qui se distinguent par rapport aux autres vhicules.
Observations tries selon la valeur valeurs absolues des COVRATIO-1
Seuil = 0,3592

Seuil <

DFBETASi
i
8
10
30
29
27
25
1
23
3
24
5
22
6
16
9
28
20
18
15
12
2
4
11
7
17
31
13
19
26
14
21

Type de vhicule
Ferrari 456 GT
Maserati Ghibli GT
Toyota Previa salon
Seat Alhambra 2.0
Peugeot 806 2.0
Mitsubishi Galant
Daihatsu Cuore
Lancia K 3.0 LS
Fiat Panda Mambo L
Mazda Hachtback V
Opel Corsa 1.2i Eco
Hyundai Sonata 3000
Subaru Vivio 4WD
Citroen ZX Volcane
Mercedes S 600
Nissan Primera 2.0
Volvo 850 2.5
Fort Escort 1.4i PT
VW Golt 2.0 GTI
Peugeot 306 XS 108
Suzuki Swift 1.0 GLS
VW Polo 1.4 60
Opel Astra 1.6i 16V
Toyota Corolla
Fiat Tempra 1.6 Liberty
Volvo 960 Kombi aut
Renault Safrane 2.2. V
Honda Civic Joker 1.4
Opel Omega 2.5i V6
Seat Ibiza 2.0 GTI
Ford Fiesta 1.2 Zetec

Cste

Prix

1,0398
0,0431
-0,4118
-0,2082
0,0387
0,1202
-0,0361
0,0198
0,0455
0,0222
0,0210
-0,0042
0,1934
-0,0334
0,8261
-0,0171
-0,0050
0,0295
0,0592
0,0808
-0,2353
-0,1418
-0,1770
-0,1104
0,1436
-0,1496
-0,1474
-0,0568
0,2891
0,2318
-0,2189

3,4167
-0,1451
0,3243
0,1634
-0,0284
-0,3202
-0,0033
0,1351
0,0118
-0,1092
0,0151
-0,5261
0,0978
0,0392
0,4977
0,0451
-0,0552
0,0637
-0,0444
-0,0582
-0,0343
-0,0606
0,0542
-0,0439
0,0067
-0,0511
0,0098
-0,0362
0,0214
-0,2902
-0,0407

|DFBETASi|

Cylindre Puissance

-0,5185
-0,2710
-0,1109
-0,1469
0,0312
-0,3484
-0,0017
-0,0227
0,0047
0,0333
0,0121
1,2382
-0,1274
-0,0264
-1,3736
-0,0072
0,0623
-0,0294
0,0578
0,0515
0,0130
-0,1082
0,0519
0,0311
0,0275
-0,1392
-0,1119
0,1620
0,2247
0,2307
0,0701

-0,8377
0,3734
-0,2977
-0,0892
0,0124
0,6384
0,0000
-0,0938
-0,0102
0,0674
-0,0226
-0,5678
0,0328
-0,0143
0,3672
-0,0284
-0,0101
-0,0455
-0,0064
0,0068
0,0014
0,1393
-0,0883
0,0172
-0,0373
0,1143
0,0256
-0,0719
-0,1193
0,0817
-0,0304

Poids

Cste

Prix

-0,3261
0,0049
0,5301
0,3176
-0,0613
-0,1940
0,0210
0,0387
-0,0222
-0,0615
-0,0075
-0,6045
-0,0162
0,0403
0,4475
0,0189
-0,0249
0,0471
-0,0616
-0,0714
0,1084
0,0754
0,0682
0,0086
-0,0485
0,1801
0,2056
-0,0954
-0,3439
-0,3221
0,0597

1,0398
0,0431
0,4118
0,2082
0,0387
0,1202
0,0361
0,0198
0,0455
0,0222
0,0210
0,0042
0,1934
0,0334
0,8261
0,0171
0,0050
0,0295
0,0592
0,0808
0,2353
0,1418
0,1770
0,1104
0,1436
0,1496
0,1474
0,0568
0,2891
0,2318
0,2189

3,4167
0,1451
0,3243
0,1634
0,0284
0,3202
0,0033
0,1351
0,0118
0,1092
0,0151
0,5261
0,0978
0,0392
0,4977
0,0451
0,0552
0,0637
0,0444
0,0582
0,0343
0,0606
0,0542
0,0439
0,0067
0,0511
0,0098
0,0362
0,0214
0,2902
0,0407

Cylindre Puissance

0,5185
0,2710
0,1109
0,1469
0,0312
0,3484
0,0017
0,0227
0,0047
0,0333
0,0121
1,2382
0,1274
0,0264
1,3736
0,0072
0,0623
0,0294
0,0578
0,0515
0,0130
0,1082
0,0519
0,0311
0,0275
0,1392
0,1119
0,1620
0,2247
0,2307
0,0701

0,8377
0,3734
0,2977
0,0892
0,0124
0,6384
0,0000
0,0938
0,0102
0,0674
0,0226
0,5678
0,0328
0,0143
0,3672
0,0284
0,0101
0,0455
0,0064
0,0068
0,0014
0,1393
0,0883
0,0172
0,0373
0,1143
0,0256
0,0719
0,1193
0,0817
0,0304

Poids

0,3261
0,0049
0,5301
0,3176
0,0613
0,1940
0,0210
0,0387
0,0222
0,0615
0,0075
0,6045
0,0162
0,0403
0,4475
0,0189
0,0249
0,0471
0,0616
0,0714
0,1084
0,0754
0,0682
0,0086
0,0485
0,1801
0,2056
0,0954
0,3439
0,3221
0,0597

ou >

0,5161

1,4839

COVRATIOi

|COVRATIOi -1|

3,8078
3,3365
1,5150
1,4484
1,4271
0,5751
1,4117
1,3858
1,3655
1,3545
1,3502
0,6861
1,2977
1,2799
0,7219
1,2543
1,2294
1,2112
1,1971
1,1689
1,1565
1,1410
0,8652
1,1196
0,8978
1,0734
1,0672
1,0285
1,0237
0,9883
0,9914

2,8078
2,3365
0,5150
0,4484
0,4271
0,4249
0,4117
0,3858
0,3655
0,3545
0,3502
0,3139
0,2977
0,2799
0,2781
0,2543
0,2294
0,2112
0,1971
0,1689
0,1565
0,1410
0,1348
0,1196
0,1022
0,0734
0,0672
0,0285
0,0237
0,0117
0,0086

Page | 88

Tableau rcapitulatif pour la dtection des observations aberrantes/atypiques


Indicateur

Objet

Levier

Mesure
linfluence
de
lobservation i cause des
valeurs des xi

Rsidus
Studentiss

Test de significativit du
rsidu i

Rsidus
Stud. Supp

DFFITS

D Cook

DFBETAS

COV
RATIO

Formule

Calcul pratique

hi = Xi (XX)1 X i

ti =

Rgion
Rgle de dcision
critique
2(p + 1)
2(p + 1)
hi >
n
n

(1h i )

t i =
A comparer avec rsidu
np2
yi yi (i)
t i = t i
studentis cart-type calcul en
np1t 2i
retirant lobservation i

(i)(1 hi (i)
Mesure
normalise
du
changement dans la valeur
prdite,
avec
et
sans
lobservation i

Mesure
changement
en
retirant lobservation i, sur les
estimations de lensemble des
coefficients
Mesure normalise de leffet
de
lobservation
i
sur
lestimation, pour chaque
coefficient j
Mesure
leffet
de
lobservation i sur la prcision

DFFITS =
yi yi (i)

(i)hi

Di =
i [ yi yi (i)]

2 (p + 1)

DFBETASj,i =

()

(i) (X X)1

COVRATIOi =
var(a(i))
var(a)

DFFITSi = t i
Di =

t 2i

hi

1h i

(p+1) (1h i )

t i

1
X
j,i

X X

(X X)1
j (1h i )

COVRATIOi =

|t i | > 2 alors
lobservation est un
point aberrant

(p+1)
n

hi

DFBETASj,i =

|t i |
> 2 alors
rsidu
est
significativement
0

(+)

()

()

|DFFITS| > 2

(p+1)

alors

lobservation
aberrante
Di >

np1

(np1)

lobservation
aberrante

|DFBETAS| >

3(p+1)
n

est
alors
est
2

alors lobservation
est aberrante
|COVRATIO
3(p+1)

1| >
alors
n
lobservation
est
aberrante

12.2. Traitement
Aprs avoir dtecter les observations aberrantes moyennant les indicateurs formuls et appliqus cihaut, la question qui se pose est la suivante : que peut-on faire de ces observations qui, manifestement,
jouent un rle particulier dans la rgression ?
Tous les auteurs s'accordent dire que la suppression automatique des observations atypiques n'est pas
la solution. Il faut comprendre pourquoi l'observation se dmarque autant et proposer des solutions
appropries :
- Premier rflexe : vrifier les donnes, y a-t-il des erreurs de saisie ? Dans ce cas, il suffit de corriger
les valeurs recenses.
- Il apparat que les observations dtectes ne correspondent pas la population tudie. Dans ce cas,
et dans ce cas seulement, la suppression est rellement justifie.
Dans notre exemple CONSO, il apparat clairement que la Ferrari 456 GT, voiture sportive
d'exception, et la Mercedes S 600, n'appartiennent pas au mme monde que les autres vhicules de
l'analyse. Ils se situent de plus des niveaux de prix qui les situent dfinitivement hors de porte. Il
parat donc lgitime de les supprimer de nos donnes.
Nous effectuons la rgression sur les 29 observations restantes. En tudiant de nouveau les points
aberrants, nous constaterons que des autres vhicules se dmarquent, savoir : Mitsubishi Galant et
Maserati Ghibli GT (tableau ci-dessous).

Page | 89

Seuils

0,371
|DFBETASi|

0,345

Type de vhicule
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Maserati Ghibli GT
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Mitsubishi Galant
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut

2,064
2,069
0,830
0,167
|Rsidus
|Rsidus
|DFFITSi| |D Cooki|
Rsidus Levier
Studentiss| Stud. Supp|

0,1475
-0,4515
0,3251
-0,6830
0,1514
0,9306
-0,5173
0,0893
-1,0350
0,5072
0,7910
0,8252
0,3044
-0,3448
1,0920
0,6006
-0,6123
0,0995
-0,7428
0,7189
-0,6830
0,0310
-1,7947
-1,0398
-0,0659
-0,3114
0,5540
0,4271
0,6865

0,1688
0,1054
0,1318
0,0954
0,1334
0,1921
0,0588
0,9069
0,0516
0,0652
0,1094
0,1450
0,0643
0,0702
0,0427
0,0661
0,1556
0,0902
0,0709
0,4733
0,2035
0,2004
0,2214
0,1495
0,1616
0,1177
0,2420
0,4154
0,0912

0,2145
0,6331
0,4627
0,9524
0,2157
1,3731
0,7071
0,3882
1,4094
0,6957
1,1116
1,1835
0,4174
0,4741
1,4800
0,8242
0,8837
0,1384
1,0219
1,3136
1,0149
0,0460
2,6972
1,4952
0,0955
0,4397
0,8439
0,7408
0,9550

0,2105
0,6256
0,4556
0,9506
0,2117
1,3980
0,7002
0,3817
1,4381
0,6886
1,1168
1,1931
0,4106
0,4670
1,5166
0,8190
0,8798
0,1358
1,0228
1,3331
1,0155
0,0451
3,1166
1,5336
0,0936
0,4327
0,8391
0,7342
0,9533

0,0949
0,2148
0,1775
0,3088
0,0831
0,6818
0,1750
1,1911
0,3354
0,1818
0,3914
0,4913
0,1076
0,1283
0,3203
0,2179
0,3777
0,0428
0,2825
1,2638
0,5133
0,0226
1,6621
0,6429
0,0411
0,1580
0,4742
0,6189
0,3021

0,0019
0,0094
0,0065
0,0191
0,0014
0,0897
0,0062
0,2934
0,0216
0,0067
0,0304
0,0475
0,0024
0,0034
0,0195
0,0096
0,0288
0,0004
0,0159
0,3102
0,0526
0,0001
0,4138
0,0786
0,0004
0,0052
0,0455
0,0780
0,0183

Cste

Prix

0,0891
0,1647
0,1510
0,1888
0,0535
0,4724
0,0820
0,3652
0,1203
0,0303
0,2358
0,0658
0,0480
0,0329
0,1268
0,0331
0,0477
0,0007
0,1859
0,0389
0,1567
0,0043
0,2174
0,4279
0,0228
0,0338
0,2798
0,2113
0,1358

0,0282
0,0038
0,0461
0,1337
0,0457
0,1109
0,0203
0,5240
0,1292
0,1022
0,1994
0,2939
0,0347
0,0421
0,0483
0,0204
0,2597
0,0096
0,0046
0,3809
0,2157
0,0156
1,1994
0,2261
0,0050
0,1300
0,0558
0,3605
0,0113

Seuil

Cylindre Puissance

0,0040
0,0453
0,0057
0,1458
0,0323
0,3252
0,0581
0,2015
0,1198
0,0047
0,1832
0,1054
0,0674
0,0392
0,0132
0,0808
0,2855
0,0292
0,0960
1,1874
0,0801
0,0006
1,0934
0,2820
0,0195
0,0421
0,2203
0,1014
0,0660

0,0180
0,0177
0,0416
0,1856
0,0554
0,0394
0,0230
0,0444
0,1541
0,0728
0,1797
0,2127
0,0424
0,0300
0,0197
0,0056
0,2704
0,0157
0,0399
0,7164
0,2161
0,0141
1,5028
0,2562
0,0038
0,1143
0,0280
0,3994
0,0522

Poids

0,0482
0,0415
0,0663
0,1368
0,0336
0,0054
0,0226
0,3870
0,0281
0,0046
0,2976
0,1144
0,0673
0,0464
0,0057
0,0912
0,2513
0,0176
0,0147
0,7441
0,0361
0,0002
0,5136
0,4504
0,0335
0,0496
0,4014
0,1656
0,1140

0,517

COVRATIOi

|COVRATIOi -1|

1,4509
1,2584
1,3446
1,1262
1,3914
1,0336
1,1730
12,6883
0,8621
1,1847
1,0709
1,0788
1,2573
1,2529
0,8185
1,1412
1,2372
1,3324
1,0668
1,6387
1,2480
1,5210
0,3028
0,9125
1,4487
1,3284
1,3971
1,8706
1,1199

0,4509
0,2584
0,3446
0,1262
0,3914
0,0336
0,1730
11,6883
0,1379
0,1847
0,0709
0,0788
0,2573
0,2529
0,1815
0,1412
0,2372
0,3324
0,0668
0,6387
0,2480
0,5210
0,6972
0,0875
0,4487
0,3284
0,3971
0,8706
0,1199

Finalement, la base de donnes sur la consommation ne contient que 27 observations suite


llimination de 4 observations aberrantes.
12.3. en utilisant le logiciel R
En utilisant le logiciel R, nous pouvons dtecter graphiquement les points aberrants/influents. La
syntaxe du logiciel R se prsente comme suit :
> reg=lm(consommation~prix+puissance+cylindre+poids)
> par(mfrow=c(2,2)); plot(reg)

Les rsultats de lexcution de ces commandes sont rsums par la figure suivante :

Page | 90

La lecture des rsultats donns par cette figure montre que les vhicules n 1, 2, 30 et 31
respectivement Hyundai Sonata 3000, Ferrari 456 GT, Mitsubishi Galant et Mercedes S 600 sont des
points suspectes. On trouve les mmes rsultats.
13. Colinarit et slection des variables
13.1. Dfinition, consquences et illustration de la colinarit

Dfinition

Un des problmes qui peut se produire dans une analyse de rgression linaire multiple est la prsence
de variables indpendantes redondantes qui provoquent de linstabilit dans les calculs. Il peut arriver,
toutefois, que certaines variables soient trs corrles entre elles et mesurent toutes la mme chose.
La multicolinarit est le fait quune variable indpendante est prdictible par (ou partage sa variance
avec) une combinaison linaire des autres variables indpendantes. Pour faire simple, disons qu'une
combinaison linaire est une variable que l'on obtient en faisant la somme pondre de plusieurs autres
variables. Ainsi, si l'on cre une variable X3 en faisant la somme pondre de deux autres variables X1
et X2, par exemple X3 = 2X1 + 3X2, alors X1, X2 et X3 seront multicolinaires.
On peut gnraliser cette dfinition en dfinissant la colinarit comme la corrlation entre une des
exognes avec une combinaison linaire des autres exognes.

Consquences

La consquence de la colinarit entre deux variables indpendantes (VI) est que les effets respectifs
de chacun de ces deux prdicteurs ne se cumulent pas simplement. En effet si deux variables sont
colinaires, cela implique quelles partagent une partie de leur variance. Plus prcisment, on peut
distinguer une variance propre la VI1, une variance propre la VI2, et une variance commune aux
deux. Comme toujours, la part de variance partage par deux variables est gale au carr de leur
corrlation linaire.
Si lon ajoutait simplement leffet de la VI1 et celui de la VI2, sans autre forme de procs, on
compterait deux fois leffet de la variance commune aux deux et une seule fois leffet de la variance
propre chaque VI.
En prsence de la colinarit, plusieurs problmes peuvent surgir :
- les valeurs/signes des coefficients sont contradictoires, elles ne concordent pas avec les
connaissances du domaine ;
- les variances des estimateurs sont exagres ;
- au point que les coefficients ne paraissent pas significatifs (au sens du t de Student du test de nullit
des coefficients), poussant le statisticien les supprimer indment ;
- les rsultats sont trs instables, l'adjonction ou la suppression de quelques observations modifie du
tout au tout les valeurs et signes des coefficients.
Il y a un vrai risque de passer ct d'une variable exogne importante tout simplement parce qu'elle
est redondante avec une autre. La colinarit entre variables exognes rend illusoire la lecture des
rsultats sur la base des valeurs et de la significativit des coefficients. Cest pourquoi il faut accorder
plus dimportance ce phnomne -dtection et traitement- avant toute interprtation approfondie.

Illustration
Si la colinarit est forte, det(XX) 0, l'inverse (XX)-1 contient des valeurs trs leves. Il en est de
= s
mme pour la matrice de variance covariance des coefficients estims : W
e (X X). Ds lors, le t
Page | 91

de Student t = s pour tester la significativit des coefficients prsente mcaniquement de trs

faibles valeurs. La variable parat non significative, elle est limine par le statisticien.

Pour effectuer cette vrification, on doit calculer et analyser des indicateurs illustrant ce phnomne.
Du point de vue du diagnostic, la multicolinarit se dtecte en faisant la rgression de l'une variable
indpendante envisage par les autres (on laisse provisoirement de ct la question de la variable
dpendante). Le carr du R multiple obtenu dans cette rgression reprsente la part de la variance de la
variable indpendante explique par l'ensemble des autres variables explicatives. Cela reprsente donc
en fait le degr auquel on peut dire qu'il existe une combinaison linaire qui relie les variables
explicatives. Idalement, ce R doit donc tre minimal.
13.2. Techniques de dtection
13.2.1. Test de Klein
Il ne s'agit pas d'un test proprement parler mais plutt d'un indicateur simple pour dtecter
rapidement les situations au problme.
Le test de Klein est fond sur la comparaison du coefficient de dtermination R calcul sur le modle
p variables (y = a + ax + ax + ax+ + ax+ e) et les carrs des coefficients de
corrlation simple r, entre les variables explicatives pour i j.

Si R < r,, il y a prsence de multicolinarit. Dans la pratique, une simple proximit entre les
valeurs R < r, doit nous alerter.

Nous appliquons ce test sur les donnes de la consommation des vhicules avec 27 observations.
La compilation de ces donnes par le logiciel SPSS donne les rsultats suivants :

La matrice des corrlations au carr des exognes deux deux est rsume par le tableau suivant :
Matrice des corrlations au carr
Prix Cylindre Puissance Poids
1
0,84
0,86 0,90
Prix
1
0,91 0,74
Cylindre 0,84
0,91
1 0,73
Puissance 0,86
0,90
0,74
0,73
1
Poids

La lecture des coefficients du tableau ci-dessus permet de dgager deux situations qui peuvent poser
problme : la corrlation entre la puissance et la cylindre (r2 = 0,91); celle entre le poids et le prix
(r2= 0,90).
Page | 92

Cela peut expliquer notamment pourquoi les variables puissance et cylindre ne paraissent pas
pertinentes pour expliquer la consommation des vhicules.
13.2.2. Facteur d'inflation de la variance (VIF), tolrance et indice de condition
Le test de Klein ne dtecte que la colinarit bivarie. Pour valuer la multicolinarit, il faudrait
effectuer la rgression de chaque exogne Xj avec les (p-1) autres exognes, puis tudier le coefficient
de dtermination R associ.
On appelle facteur d'inflation de la variance (VIF pour Variance Inflation Factor) la quantit :
=

1
1 R

On parle de facteur d'inflation car nous avons la relation suivante :


V(a) =

s
e

L'cart-type de l'estimation est multipli par un facteur .

Plus sera lev, plus la variance V(a) de l'estimation sera forte. L'estimation a sera donc trs
instable, il aura moins de chances d'tre significatif dans le test de nullit du coefficient dans la
rgression.
La question qui se pose est la suivante : A partir de quelle valeur de doit-on s'inquiter ? Si les
variables taient 2 2 indpendantes, = 1 et V(a) =
la rgression multiple partir de p rgressions simples.

s
e

. Nous pourrions obtenir les coefficients de

Le facteur dinflation de la variance ne tient donc pas compte du tout de la variable dpendante Y du
modle de rgression linaire. Si on observe une valeur 10, on peut suspecter la prsence de
colinarit entre les variables indpendantes.
La moyenne du facteur dinflation de la variance est aussi utilise pour interprter globalement
limportance de la multicolinarit. Dans cette quation, p est le nombre de variables indpendantes et,

= . Lorsque
est suprieure 1, cela indique un srieux problme de
donc,
VIF
VIF

multicolinarit.

De faon pratique, effectuer p rgressions peut tre lourd (p lev et beaucoup dobservations), on peut
lire le VIF sur la diagonale principale de la matrice inverse de la matrice des corrlations.
13.2.3. La tolrance
Il arrive aussi que linverse du facteur dinflation de la variance soit utilis comme indicateur de la
multicolinarit. Il sagit de la tolrance, qui est galement fournie par les logiciels statistiques.
Tolrance =

1
= (1 R)

Puisque la valeur critique du facteur dinflation de la variance est gale 10, la valeur critique de la
tolrance est alors fixe 110 = 0,1. Tolrance et facteur dinflation de la variance correspondent ainsi
deux mesures totalement relies et une seule de ces mesures est gnralement utilise.
13.2.4. Indice de condition K

Page | 93

Une autre faon qui permet de dtecter un problme de multicolinarit est dutiliser lindice de
condition K (Indice de conditionnement). Lindice de condition est gal la racine carre du rapport
entre la plus grande valeur propre (eigenvalue) de la matrice de corrlations des variables
indpendantes l et la plus petite valeur propre l de cette mme matrice. Soit, K =

l
l

. Lorsque ce

rapport est suprieur 10, la matrice des corrlations est dite mal conditionne et un problme de
multicolinarit est dtect. Belsey, Kuh et Welsh (1980) ont propos une variante K qui permet de
calculer un indice de condition pour chacune des j valeurs propres de la matrice de corrlation des
variables indpendantes. Soit, K =

. La valeur critique de 10 est encore utilise pour dtecter un

problme de multicolinarit srieux.

13.2.5. Application sur la consommation des vhicules


- Calcul avec un tableur

X1
X2
X3
X4

Matrice des corrlations


X1
X2
X3
1,00
0,92 0,93
0,92
1,00 0,96
0,93
0,96 1,00
0,95
0,86 0,85

X4
0,95
0,86
0,85
1,00

Inverse de la matrice des


corrlations
X1
X1
X2
X3
X4

19,79
-1,45
-7,51
-11,09

X2

X3

-1,45
12,87
-9,80
-1,36

-7,51
-9,80
14,89
2,86

X4
-11,09
-1,36
2,86
10,23

- Calcul des avec SPSS


Le calcul dtaill est donn par le tableau suivant :

Les rsultats sont donns dans le tableau suivant :

Les mmes rsultats sont confirms par le listing de SPSS.


Page | 94

Si on dcide qu'il y a un problme de colinarit lorsque 10 , alors les variables puissance,


cylindre et prix posent problme. Il y a rellement une forte colinarit des exognes dans ce fichier.
13.2.6. Test de Farrar & Glauber (multicolinarit)
Farrar & Glauber (1968) ont formalis un test de multicolinarit. Supposons pour simplifier que le
modle contienne deux variables explicatives X1 et X2. La premire tape de ce test consiste calculer
le dterminant D des coefficients de corrlation.
1
D=
r,

r,

1
=
1
1

1
= 0.
1

Lide de ce test est quune colinarit parfaite entre X1 et X2 implique un coefficient de corrlation
1 1
r,= 1. Dans cette situation, le dterminant D = 0. D =
= 0
1 1
1 0
Dans le cas dune absence de colinarit, r, = 0 et donc D = 1. D =
= 1
0 1
Le test de colinarit se basera donc sur D.

Dans le cas de plus de deux variables explicatives, D sera le dterminant dune matrice p p contenant
tous les coefficients de corrlation possibles entre les variables explicatives.
1 r,
r, 1
D=

r
,r ,

r,
r,

r ,

r,

r,

Lorsque la valeur du dterminant D tend vers zro, le risque de multicolinarit est important.
Le test scrit :
H : D = 1; les variables explicatives sont indpendantes. 

H: D < 1; .

Une transformation du dterminant D permet de driver une statistique de test dont la distribution est
connue sous H0. Il sagit de la statistique de test de Farrar-Glauber : c = n 1 (2P + 5)ln D ,
qui suit une loi 2P(P1)/2 sous H0 : P = p + 1, ln() le logarithme nprien et n la taille de lchantillon.
Si

c c de la table 1/2 P(P-1) degrs de libert et au seuil choisi , alors lhypothse

H0 est rejete, il y a donc prsence de multicolinarit.


Si

c < c alors nous acceptons lhypothse dindpendance.

Application sur les donnes de la consommation des vhicules

Nous appliquons ce test sur les donnes de la consommation des vhicules avec 27 observations.
D = 0,00000721 ;

c = 160,41 ; c(),% = c,%


= 18,31. Nous avons

lhypothse H0 est rejete, donc il y a prsence de multicolinarit.

c > c,%
,

13.2.7. Cohrence des signes


Il existe une autre approche trs simple pour dtecter la colinarit. Elle consiste comparer les signes
des coefficients de la rgression avec le signe des corrlations simples entre les exognes et
l'endogne. La procdure est la suivante :
Page | 95

1. Nous calculons la rgression linaire multiple : y = a0 + a1x1 + + apxp, nous recueillons les
signes des coefficients estims a .

2. Nous calculons les corrlations croises entre chaque variable exogne Xj et l'endogne : r, .

3. Il y a prsence de colinarit s'il existe des situations o signe(a ) signe(ry,xj). En effet, cela

indique que les autres variables perturbent la relation entre Y et Xj.

Le tableau suivant rsume les rsultats des calculs intermdiaires. La comparaison des les coefficients
de la rgression avec les coefficients de corrlation avec y, montre quil y a un conflit pour la variable
puissance que nous souponnons justement d'tre carte tort.

Prix
Cylindre
Puissance
Poids

0,00003
0,00121
-0,00374
0,00373

0,94260
0,90879
0,88830
0,94474

13.3. Slection des variables et choix de modle


Lorsque le nombre de variables explicatives, not p, disposition nest pas trop lev, il est

envisageable de considrer tous les modles possibles. Il y a =

!)(!

modles diffrents

faisant intervenir q variables explicatives. Cela fait au total pour = 2 modles possibles

considrer. Cest une mthode fastidieuse et difficile utiliser sans un ordinateur rapide.
Pourquoi ?

Parce quil faut calculer toutes les rgressions possibles impliquant un sous-ensemble des p variables
explicatives disposition, soit un total de 2 rgressions.

Comment ?
Ces quations sont rparties selon le nombre r de variables explicatives quelles contiennent.
Chaque ensemble dquations est ordonn selon le critre choisi, souvent le R.
Les meilleures quations de rgression issues de ce classement sont ensuite slectionnes pour
un examen plus dtaill.

Ce paragraphe a pour objectif de trouver un sous-ensemble de q variables exognes (q p) qui soient,


autant que possible, pertinentes et non-redondantes pour expliquer l'endogne Y. Deux problmes se
posent alors :
1. quelle est la bonne valeur de q ?
2. comment choisir ces q variables ?
La slection de variables rpond la prfrence la simplicit. Comment ? A pouvoir explicatif
sensiblement quivalent, on choisit les modles intressants pour plusieurs raisons : le modle est plus
lisible, il est plus facile interprter ; le nombre de variables collecter est plus faible ; le modle est
plus robuste.
13.3.1. Slection par optimisation
Cette approche consiste produire toutes les combinaisons possibles de variables exognes, puis de
choisir la rgression qui maximise un critre de qualit. Le premier obstacle est le nombre de cas

Page | 96

valuer, il est gal 2p-1, ce qui peut se rvler excessif lorsque p est lev. Il faut donc choisir une
stratgie de recherche non-exhaustive mais qui a de bonnes chances de trouver la solution optimale.
Il existe un grand nombre de techniques d'exploration dans la littrature. Elles se distinguent par leur
complexit et leur aptitude trouver la solution maximisant le critre.
Mais quel critre justement ? C'est ce que nous allons tudier maintenant.

Critre du R
Le critre du R se rvle le plus simple dfinir. Il exprime la part de la variance explique par le
modle. C'est le premier critre que l'on regarde dans une rgression. On essaie de trouver la
combinaison de variables qui maximise le R2.Cependant, il prsente des inconvnients majeurs qui
rsident dans le fait quil augmente de faon monotone avec lintroduction de nouvelles variables
mme si celles-ci sont peu corrles avec la variable explique Y. la limite, on connat d'office la
solution optimale : c'est le modle comportant les p variables candidates.

Critre du R-ajust
Il sagit dintroduire un R qui concerne la population et non plus lchantillon dfini par :
R

On estime ce R de la population par R-ajust.


Soit

=1

()

= 1

()

()

se
= 1
s
()

= 1 (1 R) ()

Proprits de R-ajust
- R-ajust R ds que p 2 ;
- R-ajust peut prendre des valeurs ngatives.
Intrts de R-ajust
- R-ajust naugmente pas forcment lors de lintroduction de variables supplmentaires dans le
modle ;
- Possibilit de comparer deux modles nayant pas le mme nombre de variables laide du
R-ajust et choisir le modle pour lequel R-ajust est le plus grand.

Critres AIC et BIC27


Ces critres s'appuient sur la mme ide : mettre en balance la prcision du modle quantifi par le R2
(ou le SCR : c'est la mme chose puisque SCT est constant quel que soit le modle valuer) avec la
complexit du modle quantifie par le nombre de variables qu'il comporte.
Avec le critre Akaike (AIC), nous cherchons la rgression qui minimise la quantit suivante :

Avec le critre BIC de Schwartz


, nous cherchons optimiser :

AIC = n ln

SCR
+ 2(q + 1)
n

SCR
+ ln(n) (q + 1)
n
Slection de variables sur les donnes consommation-Critre AIC
BIC = n ln

27

Il convient de signaler que ces techniques de slection ne tiennent pas compte explicitement de la redondance entre les
variables. Cela est fait de manire implicite avec la pnalisation de la complexit : deux explicatives corrles n'amliorent
gure le SCR mais sont pnalises parce que la complexit augmente, elles ne peuvent pas tre simultanment prsentes
dans le modle.
Page | 97

Nous allons essayer de trouver le modle optimal qui minimise le critre AIC. Nous adoptons une
dmarche backward. Elle consiste, partir du modle complet comportant toutes les variables,
liminer unes unes les variables qui permettent de diminuer l'AIC, et de continuer ainsi tant que la
suppression d'une variable amliore le critre.
Bref, la procdure se prsente comme suit :
1. calculer l'AIC pour le modle comportant l'ensemble de variables ;
2. valuer l'AIC conscutive la suppression de chaque variable du modle, choisir la suppression
entranant la plus forte diminution et vrifier qu'elle propose une amlioration du critre par rapport
la situation prcdente ;
3. si non, arrt de l'algorithme ; si oui, retour en (1).
Lapplication de cette procdure sur les donnes consommation des vhicules (27 observations), en
utilisant le logiciel EXCEL, donne les rsultats suivants :

,

Etape 1 : avec toutes les variables du modle, AIC = 27 + 2(4 + 1) = 18,69. La


suppression de la variable puissance entrane la plus grande diminution du critre, il passe alors 20,6188.
Etape 2 : La suppression de la variable prix entrane la plus grande diminution du critre, il passe alors
-21,99.
Etape 3 : Nous constatons qu'aucune suppression de variable n'amliore le modle courant.
i

Type de vhicule

1 Daihatsu Cuore
2 Suzuki Swift 1.0 GLS
3 Fiat Panda Mambo L
4 VW Polo 1.4 60
5 Opel Corsa 1.2i Eco
6 Subaru Vivio 4WD
7 Toyota Corolla
8 Opel Astra 1.6i 16V
9 Peugeot 306 XS 108
10 Renault Safrane 2.2. V
11 Seat Ibiza 2.0 GTI
12 VW Golt 2.0 GTI
13 Citroen ZX Volcane
14 Fiat Tempra 1.6 Liberty
15 Fort Escort 1.4i PT
16 Honda Civic Joker 1.4
17 Volvo 850 2.5
18 Ford Fiesta 1.2 Zetec
19 Hyundai Sonata 3000
20 Lancia K 3.0 LS
21 Mazda Hachtback V
22 Opel Omega 2.5i V6
23 Peugeot 806 2.0
24 Nissan Primera 2.0
25 Seat Alhambra 2.0
26 Toyota Previa salon
27 Volvo 960 Kombi aut

Cste Cylindre Poids


1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
2496
1998
1997
1984
2438
2473

650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1670
1560
1240
1635
1800
1570

y
5.7
5.8
6.1
6.5
6.8
6.8
7.1
7.4
9
11.7
9.5
9.5
8.8
9.3
8.6
7.7
10.8
6.6
11.7
11.9
10.8
11.3
10.8
9.2
11.6
12.8
12.7

5.43
6.25
5.86
7.52
6.99
5.59
7.69
8.35
8.66
10.99
8.83
9.20
9.15
8.33
8.21
8.36
10.76
7.26
11.60
12.25
10.66
12.19
11.04
9.60
11.36
12.70
11.71

0.27
-0.45
0.24
-1.02
-0.19
1.21
-0.59
-0.95
0.34
0.71
0.67
0.30
-0.35
0.97
0.39
-0.66
0.04
-0.66
0.10
-0.35
0.14
-0.89
-0.24
-0.40
0.24
0.10
0.99
SCR

0.07
0.21
0.06
1.03
0.04
1.47
0.34
0.90
0.12
0.51
0.44
0.09
0.12
0.94
0.15
0.43
0.00
0.43
0.01
0.12
0.02
0.79
0.06
0.16
0.06
0.01
0.99
9.57

AIC =

Poids
0.00450
0.00078
0.92768

Cylindre

Poids

-21.9986

DROITEREG
Cylindre
0.00131
0.00038
0.63154

Cte
1.39228
0.49688
#N/A

X'X
27

48 656

32 215

48 656

98 146 440

62 516 380

32 215

62 516 380

41 004 125

INV(X'X)
0.00010060

-0.00063972

0.00010060

0.00000037

-0.00000064

-0.00063972

0.61903339

-0.00000064

0.00000151

Page | 98

Le modle optimal au sens du critre AIC est : y = 1,39228 + 0,0131 x Cylindre + 0,00450 x Poids
Ce rsultat peut tre obtenu facilement en utilisant le logiciel R (listing suivant).
> Reg=lm(cons~Prix+Puis+Cyli+Poid)
> step(reg)
Prix Cyli Puis Poid
11600 846
32 650
12490 993
39 790
10450 899
29 730
17140 1390
44 955
14825 1195
33 895
13730 658
32 740
19490 1331
55 1010
25000 1597
74 1080
22350 1761
74 1100
36600 2165 101 1500
22500 1983
85 1075
31580 1984
85 1155
28750 1998
89 1140
22600 1580
65 1080
20300 1390
54 1110
19900 1396
66 1140
39800 2435 106 1370
19740 1242
55 940
38990 2972 107 1400
50800 2958 150 1550
36200 2497 122 1330
47700 2496 125 1670
36950 1998
89 1560
26950 1997
92 1240
36400 1984
85 1635
50900 2438
97 1800
49300 2473 125 1570
Start: AIC=-18.69
cons ~ Prix + Puis + Cyli
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

- Puis
- Prix
<none>
- Cyli
- Poid

Df Sum of Sq
1
0.0263
1
0.2403
1
1

RSS
9.3547
9.5687
9.3285
1.1863 10.5148
3.4891 12.8176

cons
5.7
5.8
6.1
6.5
6.8
6.8
7.1
7.4
9.0
11.7
9.5
9.5
8.8
9.3
8.6
7.7
10.8
6.6
11.7
11.9
10.8
11.3
10.8
9.2
11.6
12.8
12.7
+ Poid
AIC
-20.619
-20.008
-18.695
-17.462
-12.116

Step: AIC=-20.62
cons ~ Prix + Cyli + Poid

- Prix
<none>
- Cyli
- Poid

Df Sum of Sq
1
0.2174
1
1

RSS
9.5721
9.3547
1.9026 11.2573
3.8373 13.1920

AIC
-21.999
-20.619
-17.620
-13.338

Step: AIC=-22
cons ~ Cyli + Poid
Df Sum of Sq
<none>
- Cyli
- Poid

1
1

RSS
AIC
9.5721 -21.9986
4.6517 14.2238 -13.3049
13.4712 23.0433 -0.2785

Call:
lm(formula = cons ~ Cyli + Poid)

Critre du PRESS

Le critre du coefficient de dtermination R2 n'est pas appropri. On a R = 1 o SCT, la

somme des carrs totaux est constante quelle que soit la rgression considre ; SCR est dfinie de la
manire suivante : SCR = (y y)

Quand on rajoute de nouvelles variables dans le modle, mme non pertinentes, SCR diminue
mcaniquement (au pire il reste constant), et par consquent R2 augmente. Cela provient du fait que
l'on confronte la vraie valeur yi avec la prdiction y alors que l'observation i a particip l'laboration
du modle. Si on continue ajouter des nouvelles variables on aura un R2 = 1.
Donc, pour avoir une bonne estimation en prdiction, il ne faudrait pas que l'observation i participe la
construction du modle lorsqu'on veut prdire sa valeur de l'endogne. Elle intervient ainsi comme une
observation supplmentaire. On dduit alors un indicateur similaire au SCR que l'on appelle PRESS
(Predicted Residual Sum of Squares) : = (y y(i))

Page | 99

O y(i) est la prdiction de la valeur de l'endogne pour l'observation i utilise en donne


supplmentaire dans la rgression numro i.
Partant du fait quil faut effectuer rellement n rgressions, nous devons utiliser un calcul pratique du
PRESS, qui utilise la matrice H. En effet, il est possible de calculer le PRESS partir de la seule
rgression sur l'ensemble des observations en utilisant la relation suivante : y y(i) =

A la diffrence du R2, nous disposons d'un critre puissant d'valuation des performances en
prdiction. Il est possible ds lors de dfinir une stratgie de slection de variables uniquement bas
sur ce critre de performances, sans tenir compte explicitement de la complexit du modle. En effet,
dans la pratique, on se rend compte que si l'on rajoute des variables non-pertinentes, sans pouvoir
explicatif, le R2 peut s'amliorer, le PRESS lui en revanche se dgrade, indiquant par l l'inutilit de la
variable.
Application : calcul du PRESS sur les donnes consommation
Le tableau suivant donne les dtails de calcul du critre PRESS.
i

Type de vhicule

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut

Cste
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

Prix Cylindre Puissance Poids


11600
12490
10450
17140
14825
13730
19490
25000
22350
36600
22500
31580
28750
22600
20300
19900
39800
19740
38990
50800
36200
47700
36950
26950
36400
50900
49300

846
993
899
1390
1195
658
1331
1597
1761
2165
1983
1984
1998
1580
1390
1396
2435
1242
2972
2958
2497
2496
1998
1997
1984
2438
2473

32
39
29
44
33
32
55
74
74
101
85
85
89
65
54
66
106
55
107
150
122
125
89
92
85
97
125

650
790
730
955
895
740
1010
1080
1100
1500
1075
1155
1140
1080
1110
1140
1370
940
1400
1550
1330
1670
1560
1240
1635
1800
1570

PRESSi

y
5,7
5,8
6,1
6,5
6,8
6,8
7,1
7,4
9
11,7
9,5
9,5
8,8
9,3
8,6
7,7
10,8
6,6
11,7
11,9
10,8
11,3
10,8
9,2
11,6
12,8
12,7

5,56
6,26
5,89
7,49
7,00
5,74
7,67
8,36
8,55
10,91
8,69
9,29
9,14
8,30
8,14
8,20
10,84
7,31
11,57
12,35
10,58
12,23
10,99
9,44
11,25
12,86
11,88

0,14
-0,46
0,21
-0,99
-0,20
1,06
-0,57
-0,96
0,45
0,79
0,81
0,21
-0,34
1,00
0,46
-0,50
-0,04
-0,71
0,13
-0,45
0,22
-0,93
-0,19
-0,24
0,35
-0,06
0,82

0,02
0,21
0,04
0,99
0,04
1,13
0,32
0,93
0,20
0,62
0,66
0,04
0,12
1,01
0,21
0,25
0,00
0,50
0,02
0,20
0,05
0,86
0,04
0,06
0,12
0,00
0,67

0,22
0,11
0,14
0,13
0,17
0,29
0,06
0,06
0,09
0,12
0,19
0,10
0,07
0,05
0,09
0,20
0,12
0,09
0,58
0,33
0,21
0,18
0,17
0,16
0,30
0,50
0,27

0,78
0,89
0,86
0,87
0,83
0,71
0,94
0,94
0,91
0,88
0,81
0,90
0,93
0,95
0,91
0,80
0,88
0,91
0,42
0,67
0,79
0,82
0,83
0,84
0,70
0,50
0,73
PRESS
SCR

0,03
0,27
0,06
1,31
0,06
2,21
0,36
1,05
0,25
0,80
1,01
0,05
0,14
1,11
0,26
0,40
0,00
0,60
0,09
0,46
0,07
1,30
0,05
0,08
0,26
0,01
1,25
13,54
9,33

Daprs les donnes du tableau ci-dessus, nous avons : SCR = 9,33 et PRESS = 13,54. Nous avons
systmatiquement la relation SCR PRESS. Plus l'cart entre ces deux indicateurs est lev, plus le
modle "colle" trop aux donnes, il intgre des spcificits du fichier et ne restitue plus la vraie
relation qui existe dans la population.

Le Cp de Mallows
La statistique du Cp de Mallows est dfinie par :
C =

SCR
s
e

(n 2p)

Cependant, avec ce critre nous avons C = p et alors il ne serait plus intressant . Pour surmonter ce

problme, il ne faut pas estimer se par .

Page | 100

Que faisons-nous dans la pratique ? Dans la pratique, nous procdons comme suit :
1. Nous estimons se par le se du modle qui fait intervenir toutes les p variables explicatives du
modle disposition. Pour ce modle, qui a p + 1 paramtres, nous avons toujours : Cp+1 = p + 1. Et
pour les autres ? Cp prendra dautres valeurs que p.
Critre du Cp de Mallows
Nous choisissons parmi les modles le modle o le Cp de Mallows est le plus proche de p.

F de Fisher
Ce critre, justifi dans le cas explicatif est aussi utilis titre indicatif pour comparer des squences
de modles embots. La statistique partielle de Fisher est :
R R
(SCE SCE)/q
R R n p 1

F=
=
=
(1 R)
SCR/(n p 1)
(1 R)
q
np1

dans laquelle lindice q dsigne les expressions concernant le modle rduit avec (p q) variables
explicatives. On considre alors que si laccroissement (R R) est suffisamment grand :
F=



()

> Fa;q,(np1) ; lajout des q variables au modle est justifi.

13.3.2. Techniques bases sur le F partiel de Fisher


Les techniques prsentes dans ce paragraphe s'appuient sur le F partiel de Fisher. En clair, on ajoute
une variable si le carr du t de Student (qui suit une loi de Fisher) indique que le coefficient associ est
significativement diffrent de 0 ; on supprime une variable si son coefficient n'est pas significatif

Slection par avant Forward


Il s'agit d'une technique incrmentale qui consiste reprer chaque tape la variable proposant un t
de Student au carr est le plus lev, de l'ajouter dans le bloc courant si le coefficient est significatif, et
de continuer ainsi tant que les ajouts sont possibles.
On commence par p rgressions simples. Si une variable a t ajoute, on poursuit avec p-1 rgressions
2 variables, etc. L'ajout d'une variable dpend de la significativit du coefficient de la variable
choisie, il dpend donc du risque dfini par l'utilisateur28. Si on souhaite obtenir peu de variables, on
fixe un risque faible.
Toutefois, cette mthode prsente un inconvnient majeur : une variable choisie une tape n'est plus
jamais remise en cause par la suite.
Lapplication de cette mthode sur les donnes de la consommation des vhicules se droule comme
suit :
Etape 1 :

28

Il y a lieu de signaler que la variable tester est celle qui maximise le F = t2. Nous sommes en situation de comparaisons
multiples. La loi sous l'hypothse nulle est modifie. On n'est pas sr de prendre rellement un risque d'accepter tort
une variable. Pour viter cet aspect trompeur, certains logiciels proposent de fixer directement une valeur seuil de F pour
accepter ou rejeter la meilleure variable chaque tape. Cela peut paratre arbitraire, d'autant que les valeurs par dfaut
correspondent peu ou prou des niveaux de risques usuels. Mais au moins, le statisticien vitera de faire rfrence
explicitement un niveau de risque erron. Par exemple le logiciel SPSS offre deux possibilits l'utilisateur : il peut fixer
un risque critique ou directement un seuil critique. L'essentiel tant de bien comprendre ce que l'on est en train de
manipuler.
Page | 101

La lecture des donnes ci-dessus montre que parmi les 4 rgressions simples, c'est la variable poids qui
prsente un t2 = 14,409 = F = 207,63 le plus lev, elle est trs significative, en tous les cas avec un pvalue largement en-de du niveau que l'on s'est fix (5%).
La variable poids est donc intgre.
Etape 2 :
Nous essayons de chercher la variable qu'on pourrait lui adjoindre. Nous effectuons 3 rgressions 2
variables (poids et une autre).

La variable cylindre se rvle tre la plus intressante, avec un F=11,66, elle est significative 5%.
Elle est intgre.
Etape 3 :
Durant cette tape, nous avons 2 rgressions 3 variables (poids, cylindre et une autre) tester.

Page | 102

Nous constatons que la variable la plus intressante, prix avec un F = 0,53, n'est plus significative (pvalue > 5%). On s'en tient donc au modle 2 variables : poids et cylindre.
Soit le modle final : = , + , , 
Le tableau suivant rcapitule les rsultats de cette procdure :
Rsultats de la slection Forward

Il est noter que l'optimisation du AIC et la slection Forward bas sur le F donnent les mmes
rsultats. Ce n'est pas toujours vrai dans la pratique.
Lapplication de cette procdure, moyennant le logiciel SPSS, sur les donnes de la consommation des
vhicules donne les rsultats suivant (listing) :
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=FORWARD Prix Cylindre Puissance Poids.

Page | 103

Elimination en arrire Backward


La procdure Backward , qui fonctionne l'inverse de Forward , sopre comme suit :
- elle commence avec la rgression comportant toutes les exognes,
- elle regarde quelle est la variable la moins pertinente au sens du carr du t de Student le plus faible,
- elle limine la variable si elle n'est pas significative au risque 29.
- elle recommence avec les variables restantes. Le processus est interrompu lorsqu'il n'est plus possible
de supprimer une variable.
Lapplication de cette mthode sur les donnes de la consommation des vhicules se droule comme
suit :
Etape 1 :

On fixe gnralement un risque plus lev pour la suppression : la possibilit de retenir une variable est favorise par
rapport celle d'en ajouter. Notamment parce que la colinarit peut masquer le rle de certaines d'entre elles 10. Par
exemple pour le logiciel SPSS, la valeur = 10% est propose par dfaut.
29

Page | 104

Le R2 du modle complet 4 variables est gal 0,930. La variable la moins intressante est
puissance avec un t2 = (-0,249) = 0,0620, elle n'est pas significative 10% (p-value = 0,806). Elle
est retire du modle complet.
Etape 2 :

Le modle suivant, 3 exognes, possde un R2 = 0,929. La variable la moins pertinente est prix
qui n'est pas significative, elle est galement limine.
Etape 3 :

Page | 105

La rgression 2 exognes, cylindre et poids, possde des variables qui sont toutes significatives
10% : c'est notre modle dfinitif30 avec un R2 = 0,928.
Soit le modle final31 : = , + , , 
Le tableau suivant rcapitule les rsultats de cette procdure :
Rsultats de la slection Backward

Lapplication de cette procdure, moyennant le logiciel SPSS, sur les donnes de la consommation des
vhicules donne les rsultats suivant (listing) :
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=BACKWARD Prix Cylindre Puissance Poids.

30

Il est remarquer que le R2 diminue mesure que nous supprimons des variables. Mais la dgradation est minime au
regard du gain en simplicit obtenu en rduisant le nombre de variables du modle.
31
Il est noter que les procdures Forward et Backward, bases sur le F, ont donnes les mmes rsultats. Ce n'est pas
toujours vrai dans la pratique.
Page | 106

Procdure stepwise
Cest une procdure mixte des deux mthodes Forward et Backward . A la premire tape, on
commence par construire le meilleur modle 1 exogne. Par la suite, chaque tape, on regarde si
l'ajout d'une variable ne provoque pas le retrait d'une autre. Cela est possible lorsqu'une variable
exogne expulse une autre variable qui lui est corrle, et qui semblait pourtant plus significative dans
les tapes prcdentes.
Gnralement, on fixe un risque plus exigeant pour la slection (5% par exemple, on ne fait entrer la
meilleure variable que si elle est significative 5%) que pour la suppression (10% par exemple, on
supprime la variable la moins pertinente si elle est non significative 10%).
Lapplication de cette procdure, par le logiciel SPSS, donne le modle final suivant (voir listing
suivant) :
= , + , , 

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Consommation
/METHOD=STEPWISE Prix Cylindre Puissance Poids.

Page | 107

13.3.3. Rgression Stagewise


La rgression Stagewise est une procdure Forward qui consiste ajouter, au fur et mesure,
une variable qui explique au mieux la fraction de Y non-explique par les variables dj slectionnes.
L'approche de cette mthode se rsume comme suit :
On slectionne la variable Xa qui est la plus corrle, en valeur absolue, avec Y . On la slectionne
si la corrlation est significativement diffrent de 0 au risque . Nous utilisons un test de Student (n2) degrs de libert. t =

Ltape suivante consiste choisir la variable Xb qui est la plus corrle avec la fraction de Y nonexplique par Xa. Pour ce faire, on calcule le rsidu de la rgression : e = y (a0 + a1 Xa).
La variable Xb est celle qui est la plus corrle avec e1. On l'intgre dans le modle si la corrlation est
significativement diffrent de 0 au risque . Il est signaler que les degrs de libert sont modifis (n3), il en est de mme pour la statistique du test. On utilise t =

Si la variable Xb est intgre, nous cherchons la variable suivante Xc qui explique au mieux la
fraction de Y non-explique conjointement par Xa et Xb. Le plus simple toujours est de prendre le
rsidu e = y (b + bXa + bXb), de choisir la variable qui lui le plus corrl, et de tester la
significativit du coefficient de corrlation avec un tc de Student (n-4) degrs de libert.
t =

on continue ainsi jusqu' ce qu'aucun ajout de variable ne soit possible.


Enfin, re-estimer la droite de rgression avec les variables slectionnes.
Lapplication de cette mthode sur les donnes de la consommation des vhicules se fait comme suit :
1. Nous calculons les corrlations brutes entre Y et les exognes ry,Xj (sorties des logiciels SPSS & R).
Page | 108

La variable la plus corrle avec l'endogne est poids : r = 0,945.


2. Elle est significative (p-value=0,000), donc elle est accepte.
3. Pour choisir la variable suivante, on doit :
- calculer les coefficients de la rgression y = f(poids). Consommation = 1,035 + 0,007 Poids

- calculer les rsidus e = y (1,035 + 0,007 Poids).

4. Nous calculons les corrlations e1 et Xj pour dterminer la variable la plus corrle avec e1.

5. Premirement, un rsultat vident : la corrlation entre e1 et poids est nulle (=0), puisque e1 est la
fraction de la variable consommation qui n'est pas explique par poids.
La variable la plus intressante est cylindre (r=0,291), toutefois elle nest pas significative au risque
5% (signification bilatrale =0,141).
Page | 109

6. Le processus de slection de variables est arrt.


7. le modle retenu par cette mthode est : Consommation = 1,035 + 0,007 Poids
13.3.4. Coefficient de corrlation partielle et slection de variables

Corrlation partielle dordre 1

On parle de corrlation brute lorsquon mesure directement la liaison entre Y et X sans lintervention
d'aucune autre variable. Pour vrifier que la corrlation entre deux variables est significativement
diffrent de zro, nous effectuons le test d'hypothses sur le coefficient de corrlation . Ce dernier
quantifie le degr de liaison linaire entre ces deux variables continues. C'est une mesure symtrique et
correspond l'estimation de sur un chantillon de n observations.
Certes, ce n'est pas parce que 2 variables varient de manire simultane, dans le mme sens ou en sens
oppos, qu'il faut y voir forcment une relation de cause effet. Parfois, la corrlation peut tre
totalement accidentelle, il s'agit simplement d'un artefact statistique auquel on ne peut donner
aucune interprtation valable. Parfois aussi, et c'est le cas qui nous intresse ici, elle est due une
tierce variable qui joue le rle d'intermdiaire entre les 2 variables tudies.
A titre dexemple, ventes de lunettes de soleil et ventes de glaces : aucune des deux n'a un effet sur
l'autre, il s'agit plutt de la temprature qui les fait varier dans le mme sens.
Un autre exemple, la corrlation entre la taille des personnes et la longueur de leurs cheveux est
ngative. Avant d'y voir un quelconque phnomne de compensation, on se rend compte qu'il y a 2
populations : les hommes et les femmes (graphique suivant). En gnral, les hommes sont plus grands
et ont les cheveux plus courts. La variable "sexe" est la variable intermdiaire qui fait apparatre une
relation factice entre la taille et la longueur des cheveux.

L'ide de la corrlation partielle justement est de mesurer le degr de liaison entre 2 variables en
neutralisant (en contrlant) les effets d'une troisime variable.
Pour calculer le coefficient de corrlation partielle, nous utilisons les coefficients de corrlation brute :
r,/ =

,,,

, ,

(I)

L'ide derrire cette mesure est simple : on retranche de la liaison brute mesure entre y et x, l'effet
induit par z.
Pour vrifier la significativit d'une corrlation partielle, nous adoptons la mme dmarche que pour la
corrlation brute. Les hypothses tester sont :
Page | 110

La statistique du test s'crit : t =

,/

,/

H: r,/ = 0


H: r,/ 0

. La rgion critique du test est dfinie par :

R.C. : |t| > t a (n 3) ; o t a (n 3) est le fractile d'ordre 1 - /2 de la loi de Student (n - 3)


degrs de libert.

En utilisant le logiciel, on peut obtenir les diffrents coefficients et la signification de corrlation


partielle (tableau suivant) :

PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Prix
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

Au risque de 5%, il n y a pas de liaison significative entre consommation et puissance, une fois
retranche l'explication apporte par la cylindre. La mme constatation est valable en neutralisant la
variable prix (p-value =0,571). Par contre, le coefficient de corrlation partielle entre consommation et
puissance (0,486), en contrlant leffet de la variable Poids, est significative 5% (p-value=0,012).
Autres lectures : - cylindre gale, la consommation ne varie pas avec la puissance ;
- prix gal, la consommation ne varie pas avec la puissance ;
- poids gal, la consommation varie avec la puissance.

Corrlation partielle dordre suprieur 1


Durant ce point, nous allons essayer de rpondre la question suivante : Comment faire pour calculer
les corrlations partielles d'ordre suprieur 1 ? Cest--dire mesurer la liaison entre y et X en
contrlant l'effet induit par d'autres (z1, z2, ) variables.
Gnraliser lexpression (I) devient difficile manipuler mesure que le nombre de variables zj
augmente, d'autant plus qu'elle impose de calculer de proche en proche toutes les corrlations croises.
Cest pourquoi il est prfrable d'utiliser une autre formulation de la corrlation partielle.
Pour calculer la corrlation partielle entre la variable y et x en contrlant leffet des variables z1 et z2, il
faut suivre les tapes suivantes :
1. Enlever de y toute l'information achemine par z1 et z2 en calculant le rsidu e1 de la rgression :
y = a + a z + a z ; soit e = y (a + a z + a z) ;
2. Enlever de x toute l'information achemine par z1 et z2 en calculant le rsidu e2 de la rgression :
x = b + b z + b z ; soit e = x (b + b z + b z) ;

3. Obtenir la corrlation partielle en calculant la corrlation brute entre les 2 rsidus e1 et e2. Soit
r,/, = r, ;
Page | 111

Tester la nullit de ce coefficient en formant la statistique : t =


(n-4) degrs de libert.

, qui suit une loi de Student

Cette procdure de calcul peut tre gnralise lorsque nous avons k variables de contrle zj. Dans ce
H: r,/ , = 0
,

. Nous calculons la corrlation r


cas le test dhypothse se prsente comme suit :
H: r,/ , 0
,

entre les rsidus : e = y (a + a z + a z) ; e = x (b + b z + b z)


La statistique du test s'crit : t =

. Elle suit une loi de Student (n-k-2) degrs de libert.

Le calcul des corrlations partielles de la consommation et des variables Puissance et


Cylindre , compil par le logiciel SPSS, est rsum par les tableaux suivants :
Corrlations partielles entre Consommation et Puissance

Objectif

Programme SPSS

Corrlation partielle
rCons.,Puissance/Cylindre,Poids

PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

Corrlation partielle
rCons.,Puissance/cylindre,Prix

PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre Prix
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

Corrlation partielle
rCons.,Puissance/Cylindre,Poids,prix

Sortie SPSS

PARTIAL CORR
/VARIABLES=Consommation
Puissance BY Cylindre Pois
Prix
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

Corrlations partielles entre Consommation et Cylindre

Objectif
Corrlation partielle
rCons.,Cylindre/Prix,Poids

Corrlation partielle
rCons.,Cylindre/Prix,Puissance

Corrlation partielle
rCons.,Cylindre/Prix,Puissance,Poids

Programme SPSS

Sortie SPSS

PARTIAL CORR
/VARIABLES=Consommation
Cylindre BY Prix Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
PARTIAL CORR
/VARIABLES=Consommation
Cylindre BY Prix Puissance
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.
PARTIAL CORR
/VARIABLES=Consommation
Cylindre BY Prix Puissance Poids
/SIGNIFICANCE=TWOTAIL
/MISSING=LISTWISE.

Slection fonde sur la corrlation partielle


Page | 112

La notion de corrlation partielle s'accorde bien avec la slection de variables de type forward : on veut
mesurer l'information additionnelle apporte par une variable supplmentaire dans l'explication des
valeurs prises par l'endogne.
L'enchanement des oprations serait :
1. dtecter la variable exogne Xa la plus corrle (en valeur absolue) avec l'endogne, la retenir si la
liaison est significative ;
2. dtecter la seconde variable Xb exogne qui maximise la corrlation partielle ry,Xb/Xa, on l'introduit
dans le modle si elle est significativement diffrente de zro ;
3. l'tape q, il s'agit de calculer la corrlation partielle d'ordre q-1 pour slectionner ou pas la qme
variable.
4. La rgle d'arrt est une corrlation partielle non-significative de la meilleure variable une tape
donne.
Lapplication de cette mthode sur les donnes de la consommation des vhicules sopre comme suit :
Etape 1. On slectionne la variable Poids, car elle dtient le coefficient de corrlation le plus lev
(r=0,945) et elle est significative 5%(p-value=0,000).

Etape 2. On ajoute au modle la variable Cylindre car elle dtient le coefficient de corrlation
partielle avec lendogne en neutralisant leffet Poids (rCons.,Cylindre/poids =0,572) et elle est
significative 5%(p-value=0,002) (tableau suivant).

Page | 113

Etape 3. La variable la plus corrle avec l'endogne, conditionnellement poids et cylindre, est prix
avec r = 0,151. Toutefois, la liaison n'est pas significative 5% puisque la p-value = 0,472. Donc, nous
arrtons la procdure de slection.

Le modle dfinitif, selon cette approche, comprend les variables Poids et Cylindre .
Soit,

= , + , Poids, Cylindre

14. Les rgressions partielles


14.1. Principe des rgressions partielles
La rgression partielle permet d'valuer graphiquement l'apport d'une variable additionnelle dans une
rgression o (p-1) variables explicatives sont dj prsentes. La procdure permet de produire un
"nuage de points", le graphique des rgressions partielles, directement li la notion de corrlation
partielle. Il permet galement d'identifier les observations aberrantes/influentes de la rgression.
Supposons que lon souhaite valuer l'influence de Xp dans la rgression.
y = a + ax + ax + ax + + ax+e

Aprs estimation des paramtres a , nous pouvons produire les rsidus ede cette rgression.

On peut construire le graphique de la rgression partielle pour la variable Xp de la manire suivante :


1. Ralisation de la rgression de Y sur les (p-1) explicatives par lestimation des (p-1) paramtres :
y = b + bx + bx + bx + + bx+ e.Calcul des rsidus de cette rgression e.
2. Ralisation de la rgression de Xp sur les (p-1) explicatives par lestimation des (p-1) paramtres :
X = c + cx + cx + cx + + cx+ e .Calcul des rsidus de cette rgression e .

3. Construction du graphique, de la rgression partielle pour Xp, du nuage de points ( e , e) avec


een abscisse et e en ordonne.

4. Calcul du coefficient de corrlation linaire sur les rsidus ( e , e). ce coefficient nous donne le

coefficient de corrlation partielle entre Y et Xp. Cette approche est trs pratique pour calculer les
corrlations partielles d'ordre suprieur 1 (paragraphe prcdant).
5. Calcul, partir de ce nuage de points, la rgression : e = z + d e + e et dduction des
rsidus e.
A partir de ce graphique des rsidus, on peut dgager des proprits intressantes :

=e
= 0
z = 0, puisque les variables qui intervenant dans la rgression sont centres : e
d = a. On retrouve le coefficient du modle complet incluant Xp.

Le rsidu e est identique au rsidu du modle complet e c'est--dire e, = e, i = 1,,n.


Les observations aberrantes/influentes sont facilement identifiables dans ce graphique.
On peut galement dtecter rapidement la non linarit et lhtroscdasticit des rsidus.
A propos de lvaluation influence de la variable Xp dans la rgression, la lecture du graphique
peut tre faite sous l'angle suivant :
Page | 114

- Si le nuage de points ne prsente pas de "forme particulire", s'il est globalement horizontal (de
pente nulle), la variable Xp n'apporte pas d'information supplmentaire pertinente par rapport aux
variables dj prsentes.
- Si les points forment une droite de pente non nulle, Xp influe linairement dans la rgression.
14.2. Application sur la consommation des vhicules
Durant cette application, nous allons valuer la contribution de la variable Puissance (Xp) dans
l'explication de la consommation (y), sachant que les variables, cylindre et poids, ont dj t
slectionnes.
1. Nous ralisons les rgressions suivantes, par le logiciel SPSS:
Consommation = f(Poids,Cylindre)

Puissance = f(Poids,Cylindre)

2. Nous construisons le graphique de la rgression partielle de la variable puissance (Graphique


suivant).

La lecture de ce graphique montre que le nuage de points ne prsente pas une pente particulire.
Donc, l'explication additionnelle de la puissance sur la consommation par rapport la cylindre
et le poids n'est pas dcisive.
Notons cependant une certaine dissymtrie de la distribution sur l'axe des abscisses
(RES_PUISSANCE). Elle est due aux deux points aberrantes : la Hyundai Sonata 3000 et la
Toyota Previa Salon.
3. Nous calculons la rgression sur les rsidus :

Soit : e = 0,00000 + 0,00121 e

Lecture des rsultats :

- la constante de la rgression est nulle.

Page | 115

- la pente = 0,00121 (trs proche de 0), confirmant une faible influence additionnelle de puissance dans
la rgression. Le coefficient de dtermination est R2 = 0,00035.
4. La rgression, incluant toutes les explicatives (Poids+Puissance+Cylindre), est rsume par le
tableau suivant :

Lecture des rsultats :


- a = 0,00121 = d .

- en calculant les rsidus de cette rgression RES , nous retrouvons exactement les valeurs de e
RES_r ).
Type
Daihatsu Cuore
Suzuki Swift 1.0 GLS
Fiat Panda Mambo L
VW Polo 1.4 60
Opel Corsa 1.2i Eco
Subaru Vivio 4WD
Toyota Corolla
Opel Astra 1.6i 16V
Peugeot 306 XS 108
Renault Safrane 2.2. V
Seat Ibiza 2.0 GTI
VW Golt 2.0 GTI
Citroen ZX Volcane
Fiat Tempra 1.6 Liberty
Fort Escort 1.4i PT
Honda Civic Joker 1.4
Volvo 850 2.5
Ford Fiesta 1.2 Zetec
Hyundai Sonata 3000
Lancia K 3.0 LS
Mazda Hachtback V
Opel Omega 2.5i V6
Peugeot 806 2.0
Nissan Primera 2.0
Seat Alhambra 2.0
Toyota Previa salon
Volvo 960 Kombi aut

Cylindre Puissance
846
32
993
39
899
29
1 390
44
1 195
33
658
32
1 331
55
1 597
74
1 761
74
2 165
101
1 983
85
1 984
85
1 998
89
1 580
65
1 390
54
1 396
66
2 435
106
1 242
55
2 972
107
2 958
150
2 497
122
2 496
125
1 998
89
1 997
92
1 984
85
2 438
97
2 473
125

Poids Consommation RES_CONSOM RES_PUISSANCE RES_r


RES
650
5.7
0.27053
2.66456 0.26731 0.26731
790
5.8
-0.45285
1.50000 -0.45466 -0.45466
730
6.1
0.24067
-3.62377 0.24505 0.24505
955
6.5
-1.01660
-13.06231 -1.00080 -1.00080
895
6.8
-0.19067
-14.69929 -0.17289 -0.17289
740
6.8
1.21158
9.96560 1.19952 1.19952
1 010
7.1
-0.58701
-0.08335 -0.58691 -0.58691
1 080
7.4
-0.95107
6.28282 -0.95867 -0.95867
1 100
9.0
0.34383
-1.23613 0.34532 0.34532
1 500
11.7
0.71228
3.14734 0.70848 0.70848
1 075
9.5
0.66540
0.19365 0.66517 0.66517
1 155
9.5
0.30371
-0.78464 0.30466 0.30466
1 140
8.8
-0.34707
2.76852 -0.35042 -0.35042
1 080
9.3
0.97121
-1.96198 0.97359 0.97359
1 110
8.6
0.38517
-4.87169 0.39106 0.39106
1 140
7.7
-0.65784
6.51157 -0.66572 -0.66572
1 370
10.8
0.04393
-2.32950 0.04674 0.04674
940
6.6
-0.65500
4.68750 -0.66067 -0.66067
1 400
11.7
0.10477
-25.53521 0.13565 0.13565
1 550
11.9
-0.35259
16.33571 -0.37234 -0.37234
1 330
10.8
0.14283
11.38317 0.12906 0.12906
1 670
11.3
-0.88746
10.45863 -0.90011 -0.90011
1 560
10.8
-0.23906
-2.13431 -0.23648 -0.23648
1 240
9.2
-0.39624
4.64561 -0.40185 -0.40185
1 635
11.6
0.24144
-6.38788 0.24917 0.24917
1 800
12.8
0.10296
-16.48234 0.12289 0.12289
1 570
12.7
0.99316
12.64772 0.97786 0.97786

- en calculant la corrlation entre RES_CONSOM et RES_PUISSANCE (tableau suivant), nous


retrouvons effectivement la corrlation partielle obtenue dans le point, ci-dessus, traitant la rgression
partielle dordre suprieur 1 : rCons.,Puissance/Cylindre,Poids = rRES_CONSOM,RES_PUISSANCE = 0,019).
En levant, au carr, ce coefficient de corrlation, nous retrouvons
RES_CONSOM et RES: r2 = (0,01884)2 = 0,00035=R.

le coefficient de dtermination de la rgression de

15. Rgressions croises


15.1. Mise en uvre
Pour mesurer la multicolinarit entre les exognes, nous avions utilis entre autres, le critre VIF
(variance inflation factor) c'est--dire la liaison de chaque Xj avec une combinaison linaire des (p-1)
Page | 116

autres explicatives. Dans son principe, le critre vj est bas sur le coefficient de dtermination R de la
rgression de Xj sur les autres. On parle de rgressions croises. Nous avions obtenu directement la
valeur de vj sur la diagonale de l'inverse de la matrice des corrlations C-1.

Nous allons essayer, dans la suite de ce paragraphe, dapprofondir cette ide. Nous montrons qu'il est
possible de reconstituer les rsultats des rgressions croises partir de la matrice C-1.
Notons vkj les lments de la matrice C-1, qui est de dimension (p x p) ; vjj = vj est le VIF de la variable
Xj lue sur la diagonale de C-1. Nous nous intressons la rgression :
X = a + ax + + ax + ax + + ax+e

Coefficient de dtermination
Comme le VIF vl peut tre exprim en fonction du coefficient de dtermination R de cette rgression,

l'inverse est aussi vrai : = R = .

Test de significativit globale


Il y a (p-1) explicatives dans la rgression, les degrs de libert doivent tre ajusts en consquence.
Pour tester la significativit globale de la rgression, nous formons la statistique Fl :
/()

/()

F = ()/(())
= ( )/()

se

Estimation de la variance de lerreur


La variance de l'erreur de rgression, autre indicateur de qualit de l'ajustement, est aussi dduite du

()

VIF. Elle est corrige par la variance de la variable : s


e = ()
=

Avec

s
= (x x)

()

Coefficients standardiss de la rgression


Ces coefficients permettent la comparaison de l'impact des variables indpendantes sur la variable
dpendante en les ramenant sur une chelle commune. Leur obtention est immdiate partir de la
matrice C-1 : b =

Coefficients standardiss de la rgression


Les coefficients de la rgression sont alors obtenus en les dnormalisant des cart-types des variables,
soit : a = bx

, k 0.

Pour la constante a, on la retrouve en utilisant lquation suivante : a = x a x

Corrlations partielles
Il est possible de produire les corrlations partielles entre les variables, prises deux deux, partir de
la matrice C-1. Pour mesurer la liaison entre les variables Xk et Xj en contrlant l'influence des autres,
nous calculons la quantit suivante : r,/{} =



L'objectif est de mesurer la "vritable" relation entre les variables, en dehors de toute influence. Un
dcalage ventuel (forte rduction en valeur absolue) entre les valeurs de r, et r,/{} est
rvlateur du caractre artificiel de la relation mesure l'aide de la corrlation brute que l'on peut lire
dans la matrice C.

Page | 117

15.2. Rgressions croises sur les donnes consommation des vhicules


Calculons dabord la matrice C des corrlations croises en utilisant le logiciel SPSS (l'ordre des
variables est PRIX, CYLINDREE, PUISSANCE, POIDS).

1
0,92
C=
0,93
0,95

0,92 0,93 0,95


1
0,96 0,86

0,96
1
0,85
0,86 0,85
1

Linverse de cette matrice peut tre obtenu par le logiciel EXCEL :


19,79 1,45 7,51
1,45
12,87 9,80
C =
7,51 9,80 14,89
11,09 1,36 2,86

11,09
1,36

2,86
10,23

Notre objectif est de retrouver les caractristiques de la rgression :


= a0 + a1 + a2 + a3 + a4

- La lecture de la matrice C-1 donne le VIF de la variable Prix, v1 = 19,79.

Nous dduisons le coefficient de dtermination de la rgression : R = , = 0,95. Ce


coefficient est trs lev, la variable Prix est fortement corrle avec une combinaison linaire des
autres variables. On peut vrifier la significativit globale de la rgression en utilisant le test F, avec :
0,95/(4 1)
F =
= 145,7
(1 0,95)/(27 4)

SECTION 2 : ASPECTS PRATIQUES

Durant cette section, nous allons exposer la procdure suivre pour trouver les calculs dtaills de la
rgression linaire multiple aussi bien avec un logiciel statistique SPSS quavec un tableur.

1. En utilisant le logiciel SPSS


Pour raliser une rgression linaire multiple avec SPSS :
1. Choisissez Analyse, puis Rgression et Linaire.

Page | 118

2. En cliquant sur
, insrez la variable dpendante dans la boite Dpendant et la ou les
variables indpendantes dans leur boite. Puisque vous ralisez une rgression simple, vous n'en
placez qu'une.
3. Vous laissez galement la mthode d'analyse par dfaut, c'est--dire le modle Entre qui utilise
toutes les variables choisies pour prdire la variable dpendante. Vous verrez les autres modles
plus en dtails si vous suivez un cours de statistiques avances.

Pour le choix de la mthode de rgression, autre que le modle Entre, voir le paragraphe de la
rgression linaire multiple.
4. Vous pouvez choisir une variable de filtrage pour limiter l'analyse un sous-chantillon form par
les participants ayant obtenu une ou des valeur(s) particulire(s) cette mme variable.
5. Vous pouvez aussi spcifier une variable qui permettra d'identifier les points sur le graphique
(tiquettes d'observation).
6.
Enfin, vous pouvez choisir une variable numrique pondre (Poids WLS) pour effectuer
l'analyse des moindres carrs. Par cette analyse, les valeurs sont pondres en fonction de leurs
variances rciproques, ce qui implique que les observations avec de larges variances ont un impact
moins important sur l'analyse que les observations associes de petites variances.
7.

Pour procder l'analyse, cliquez sur

Le bouton
Dans la rgression linaire simple, vous pouvez conserver les statistiques par dfaut fournies par SPSS.
D'abord, vous obtiendrez les estimations des coefficients de rgression qui permettent de reconstituer
l'quation de la droite de rgression.
Page | 119

Vous obtiendrez galement un tableau bas sur la distribution F vous informant de la qualit de
l'ajustement du modle.

Les autres options fournies par le bouton


sont les suivantes :
Intervalles de confiance : cette option indique les intervalles de confiance pour les coefficients de
rgression.
Matrice de covariance : cette option affiche une matrice de covariance, les coefficients de corrlation
et les variances entre les coefficients de rgression et les variables du modle.
Variation de R-deux : cette option indique les changements du R2 lorsque l'on ajoute un (ou un
ensemble de) prdicteurs. Cette mesure est trs utile dans la rgression multiple pour voir la
contribution des nouveaux prdicteurs la variance explique.
Caractristiques : cette option affiche non seulement un tableau qui inclut le nombre d'observations,
la moyenne et l'cart-type de chaque variable, mais aussi une matrice de corrlation entre les variables
inclues dans le modle.
Mesure et corrlations partielles : cette mesure effectue une corrlation de Pearson entre la variable
dpendante et la variable indpendante. Elle effectue une deuxime corrlation en contrlant l'effet des
autres variables indpendantes (dans la rgression multiple). Finalement, toujours pour la rgression
multiple, elle ralise une corrlation partielle entre la variable indpendante et la variable dpendante.
Cette corrlation est base sur la variance qui n'est pas explique par les autres variables
indpendantes.
Tests de colinarit : la rgression multiple est base sur la prmisse d'absence de multicolinarit
entre les variables indpendantes (ces variables ne doivent pas tre fortement corrles entre elles).
Cette mesure vrifie donc cette prmisse.
Durbin-Watson : la rgression multiple exige aussi l'indpendance des rsiduels. Cette option permet
de vrifier cette prmisse. Toutefois, SPSS ne fournit pas le degr de signification du test. Le
chercheur doit donc dcider si le rsultat est suffisamment diffrent de deux pour dire qu'il ne respecte
pas la prmisse.
Diagnostic des observations : cette option liste les valeurs observes de la variable dpendante, les
valeurs prdites, la diffrence et la diffrence standardise entre ces deux valeurs (les rsiduels). Les
valeurs peuvent tre prsentes pour toutes les observations ou pour les points atypiques (par dfaut,
les observations qui se situent plus de trois cart-types standardiss de la moyenne. On recommande
de baisser ce seuil deux, puisque gnralement, les valeurs extrmes se situent deux cart-types et
plus). Finalement, un tableau synthse indique les valeurs minimales, maximales, la moyenne et
l'cart-type des valeurs observes et des rsiduels.
Cliquez sur

pour revenir la boite de dialogue principale.


Page | 120

Le bouton
Ce bouton vous permet de raliser plusieurs graphiques qui peuvent vous aider vrifier certaines
prmisses de la rgression.

Les variables dans la boite de gauche se dfinissent comme suit :


DEPENDNT : variable dpendante
*ZPRED : valeur prdite standardise de la variable dpendante base sur le modle.
*ZRESID : rsiduel standardis (diffrence standardise entre les valeurs observes et les valeurs
prdites par le modle).
*DRESID : rsiduels supprims (diffrence entre la valeur prdite ajuste et la valeur observe).
*ADJPRED : valeurs prdites ajustes (valeur prdite pour un cas lorsque ce cas est retir du modle).
*SRESID : rsiduel studentis (rsiduel non standardis divis par un estim de son cart-type qui
varie point par point).
*SDRESID : rsiduel supprim studentis (rsiduel supprim divis par son erreur standard).
Vous insrez donc les variables pour lesquelles vous voulez produire un graphique dans les boites X et
Y. Vous pouvez raliser plus d'un graphique en appuyant sur le bouton
. Vous devez ce
moment introduire une variable dans les boites X et Y.
Si vous cochez l'option Gnrer tous les graphiques partiels, vous obtiendrez les graphiques pour les
rsiduels ou les observations de la variable dpendante en fonction de chaque variable indpendante
(bien entendu, cette option est plus pertinente pour la rgression multiple).
Vous pouvez galement obtenir l'Histogramme des rsiduels standardiss et le Diagramme de
rpartition gaussien. Ces deux graphiques sont trs utiles pour vrifier la prmisse de distribution
normale des rsiduels de la rgression multiple.
Cliquez sur

pour revenir la boite de dialogue principale.

Le bouton
Il est possible de sauvegarder les valeurs calcules par le modle de rgression et d'en faire de
nouvelles variables dans la base de donnes. Les options concernant les valeurs prdites et les rsiduels
ont t dfinis dans la section prcdente.

Page | 121

L'encadr des distances offre trois tests qui permettent d'identifier les observations qui influencent
fortement le modle :
Distance de Mahalanobis : mesure la distance entre une observation et la moyenne des valeurs
prdites. Le point de coupure indiquant une distance problmatique dpend du nombre de prdicteurs
et de la taille de l'chantillon. Il faut donc se rfrer la table de Barnett et Lewis (1978).
Distance de Cook : statistique qui considre l'effet d'un cas sur l'ensemble du modle. Les valeurs plus
leves que 1 doivent retenir l'attention du chercheur.
Valeurs influentes : mesure de l'influence de la valeur observe de la variable dpendante sur les
valeurs prdites. Cette valeur se calcule par le nombre de prdicteurs (k) + 1 divis par le nombre de
d'observations (N) et se situe entre 0 (aucune influence de l'observation sur la valeur prdite) et 1
(influence complte de l'observation sur la valeur prdite).
L'encadr des Intervalles de la prdiction permet de sauvegarder les valeurs minimales et maximales
prdites pour l'ensemble du modle (Moyenne) et ces mmes valeurs pour chaque observation
(Individuelle). L'intervalle de confiance est fix 95 %.
L'encadr des Statistiques d'influence permet dobtenir :
DfBeta(s) : variation de la variable beta du coefficient de rgression qui rsulte de l'exclusion d'une
observation. Une valeur est calcule pour chaque terme du modle, incluant la constante.
DfBeta(s) standardiss : variation de la variable beta standardise.
Diffrence de prvision : diffrence du degr d'ajustement du modle qui reprsente le changement de
la valeur prdite qui rsulte du retrait d'une observation particulire.
Dfprvision standardise : diffrence du degr d'ajustement du modle standardise.
Rapport de covariance : rapport entre le dterminant de la matrice de covariance lorsqu'une
observation est exclue du calcul du coefficient de rgression et le dterminant de la matrice de
covariance lorsque toutes les observations sont inclues. Si le ratio est prs de 1, l'observation
n'influence pas significativement la matrice de covariance.
L'encadr Satistiques coefficients : vous pouvez Crer des statistiques coefficient et les
enregistrer comme un nouvel ensemble de donnes. Cet ensemble sera disponible pour une utilisation
ultrieure durant la mme session, mais pas pour la session suivante moins que vous ne les
sauvegardiez par vous-mmes. Vous pouvez galement crire un nouveau fichier de donnes.
Page | 122

L'encadr Exporter les informations du modle dans un fichier XML : vous pouvez exporter les
paramtres estims du modle et leur matrice de covariance dans un fichier spcifique. Vous pourrez
utiliser les informations associes ce modle pour une autre base de donnes partir des logiciels
SmartScore et SPSS Server.
Cliquez sur

pour revenir la boite de dialogue principale.

Le bouton
La dernire boite de dialogue vous offre quelques autres options.
Le premier encadr concerne la rgression multiple pas pas (Paramtres des mthodes
progressives). Vous pouvez Choisir la probabilit de F pour l'Entre des variables dans le modle.
Idalement, vous conserver le choix par dfaut (seuil de 0,05), mais vous pouvez galement rendre
votre modle plus svre et fixer ce seuil 0,01. Vous pouvez aussi modifier la valeur de
Suppression, comme vous pouvez Choisir la valeur de F pour l'Entre et la Suppression. Dans ce
cas, il vous faudrait la modifier en fonction du nombre de variables introduites dans le modle partir
d'une distribution F. C'est donc plus simple de se baser sur la probabilit de F qui demeure la mme
peu importe le nombre de variables.
Vous pouvez Inclure le terme constant dans l'quation (ordonne l'origine) ou non. Le retrait de la
constante n'est pas vraiment conseill.
Enfin, vous choisissez ce que vous dsirez faire avec les valeurs manquantes. Vous pouvez conserver
l'option par dfaut et Exclure toute observation incomplte de la rgression ou Exclure seulement
les composantes non valides. Dans ce cas, vous feriez l'analyse pour les observations qui ont des
donnes compltes pour les paires de variables corrles (une variable indpendante et une variable
dpendante). Puisque seulement deux variables sont mises en relation dans la rgression simple, a ne
fait aucune diffrence. Enfin, vous pouvez galement Remplacer par la moyenne les valeurs
manquantes. Ce n'est pas ncessairement le meilleur choix, puisque rien ne prouve que les valeurs
manquantes se situeraient en ralit prs de la moyenne. Idalement, vous conservez l'option par
dfaut.

Cliquez sur
pour revenir la boite de dialogue principale.
1. Pour raliser lanalyse, cliquez sur Analyse, Rgression, puis Linaire.

Page | 123

2. En cliquant sur
les botes appropries.

, insrez la variable dpendante et la ou les variable(s) indpendante(s) dans

3.
Si vous dsirez absolument que la premire variable indpendante soit incluse, privilgiez la
mthode Entre.
4. Pour crer des blocs (groupes) de variable(s) indpendante(s) dans le cadre d'une rgression
hirarchique, cliquez sur
lorsque le premier bloc est construit, puis insrez les variables
indpendantes des autres blocs en rptant cette procdure. La mthode de rgression (Entre, Pas
pas, etc.) peut tre dtermine pour chaque bloc. Habituellement, la mthode Entre est utilise
moins d'a priori thoriques particuliers.

5. Vous pouvez choisir une variable de filtrage pour limiter l'analyse un sous-chantillon form par
les participants ayant obtenu une ou des valeur(s) particulire(s) cette mme variable.

Page | 124

6.
Vous pouvez aussi spcifier une variable qui permettra d'identifier les coordonnes sur le
graphique (tiquettes d'observation).
7.
Enfin, vous pouvez choisir une variable numrique pondre (Poids WLS) pour effectuer
l'analyse des moindres carrs. Par cette analyse, les valeurs sont pondres en fonction de leurs
variances rciproques, ce qui implique que les observations avec de larges variances ont un impact
moins important sur l'analyse que les observations associes de petites variances.
8.
Assurez-vous d'avoir slectionn les options ncessaires (par exemple, sous le bouton
Statistiques).
9. Pour procder l'analyse, cliquez sur
.
Une prsentation dtaille de toutes les options est disponible dans le procdurier de la rgression
simple.
Le bouton
Pour la rgression multiple, nous suggrons de cochez les options suivantes :

Lencadr Coefficients
Estimations : valeurs b pour chaque VI et son test de signification
Intervalles de confiance : intervalle pour chaque coefficient dans la population
Lencadr Rsidus
Durbin-Watson : valuation de lindpendance des erreurs
Diagnostic des observations : valeur de la VD observe, prdite, du rsiduel et du rsiduel standardis
pour chaque observation. Indique quelles observations ont un rsiduel standardis de plus de 2 ou 3 .t. (au choix de l'utilisateur)
Les autres statistiques
Qualit de lajustement : fournit le test pour valuer lensemble du modle (F), le R multiple, le R2
correspondant et le R2 ajust
Variation de R-deux : changement du R2 aprs lajout dun nouveau bloc de VI
Caractristiques : moyenne, .-t. et N pour toutes les variables du modle
Mesure et corrlations partielles :
Corrlation entre chaque VI et la VD
Corrlation partielle entre chaque VI et VD en contrlant pour les autres VI
Corrlation partie ou semi-partielle entre chaque VI et la variance non explique de la VD par les
autres VI
Test de colinarit : valuation de la multicolinarit dans le modle (VIF).
Cliquez sur

pour revenir la boite de dialogue principale.


Page | 125

Le bouton
Les graphiques offerts permettent de vrifier par un examen visuel les prmisses de la rgression
linaire multiple. Celui croisant les valeurs prdites (*ZPRED) et rsiduelles (*ZRESID) standardises
illustre le respect (ou le non respect) de la prmisse dhomognit (rpartition alatoire des points
autour de 0) et de linarit (tendance des points se concentrer autour dune ligne).

Pour faire plus d'un graphique, utilisez le bouton


.
Lencadr des diagrammes des rsidus normaliss permet dillustrer la distribution des rsiduels
(histogramme et diagrammes de rpartition gaussiens), ce qui vous permet de faire un examen visuel
du respect de la prmisse de normalit de la distribution des erreurs.
Cliquez sur

pour revenir la bote de dialogue principale.

Le bouton
Toutes les options disponibles dans ce menu permettent de crer des nouvelles variables ayant les
valeurs calcules par le modle. Il sagit donc de choisir les variables diagnostiques permettant
dvaluer la qualit du modle et celles qui permettent de dtecter les variables ayant une importante
influence sur le modle. On choisira donc minimalement les rsidus standardiss, mais on peut
galement ajouter les valeurs prdites non standardises et standardises (valeur de la VD calcule
pour chaque observation) ainsi que la distance de Cook et les DfBta(s) standardiss. Notez quen
cochant des options dans la bote de dialogue Enregistrer, vous allez obtenir un tableau de rsultats de
plus portant sur les statistiques des rsidus et comprenant minimalement la moyenne, lcart-type, les
valeurs minimales et maximales ainsi que le N.

Page | 126

Cliquez sur

pour revenir la bote de dialogue principale.

Le bouton
La dernire fentre vous permet de dterminer les paramtres de slection des mthodes d'entre
progressives (Ascendante ou descendante - stepwise). Vous pouvez utiliser la valeur de la probabilit
associe la valeur F (soit la valeur de p) ou encore la valeur de la statistique F pour introduire ou
retirer des variables. Idalement, vous conservez les valeurs par dfaut moins que vous ne vouliez
que les critres d'entre ou de retrait des variables de votre modle soient plus svres ou plus
inclusifs.

videmment, vous laissez aussi la constante dans lquation. Vous pouvez finalement spcifier ce que
vous dsirez faire avec les valeurs manquantes. Encore une fois, loption par dfaut est privilgier
puisque le retrait de toute observation incomplte permet de conserver toujours le mme nombre
dobservations, ce qui favorise la cohrence du modle.
Cliquez sur

pour revenir la boite de dialogue principale.

Page | 127

2. En utilisant la fonction DROITEREG du logiciel EXCEL

Page | 128

Page | 129

Page | 130

ANNEXES

Page | 131

Page | 132

Page | 133

Page | 134

Page | 135

Page | 136

Page | 137

Page | 138

Page | 139

Page | 140

REFERENCES BIBLIOGRAPHIQUES
Arnaud Guyader 2011, Rgression linaire , Universit Rennes 2.
C.Chouquet 2009-2010, Modles linaires , Laboratoire de Statistique et Probabilits - Universit
Paul Sabatier Toulouse.
Caroline BERNARD-MICHEL 2002, Etude sur la rgression linaire , Etude n70/00, Laboratoire
National dEssaies (LNE).
Caroline VERHOEVEN, Chapitre II : La rgression multiple . STAT-G204.
Catherine DEHON 2013-2014, Introduction l'conomtrie , Universit libre de Bruxelles.
Emmanuelle RENY-NOLIN, Larticle de Francis Galton Journal of the Anthropological Institute,
vol. 15, 1886. Dpartement de mathmatiques et de statistique, Universit LAVAL.
GALTON 1886, Regression towards mediocrity in hereditary
http://www.galton.org/essays/1880-1889/galton-1886-jaigi-regre ssion-stature.pdf.
Francis

stature .

Frdric Bertrand & Myriam Maumy-Bertrand 2012, Choix du modle de la rgression linaire
multiple , IRMA, Universit de Strasbourg, France.
Gilles RAICHE 2013, Rgression simple et rgression multiple , leon 08 in Collecte et traitement
de variables quantitatives en ducation, MAE 7020.
Huyn PHAM 2002-2003, Cours dconomtrie , Maitrise MASS, Universit Paris 7.
Jerme HUILLET 2002, INITIATION AL'ENVIRONNEMENT R , Universit Paul SABATIER,
Toulouse III.
Josiane CONFAIS - Monique LE GUEN 2006, PREMIERS PAS en REGRESSION LINEAIRE
avec SAS , Revue MODULAD, numro 35.
Nocolas JUNG 2015, Rgression linaire avec R avec lutilisation de ggplot2
Pierre-Andr Cornillon & Eric Matzner-Lber 2011, Rgression avec R .
Rgis BOURBONNAIS 2015, Cours et exercices corrigs , 9me dition.
Ricco RAKOTOMALALA 2013, La rgression linaire simple et multiple . Pratique de la
Rgression Linaire Multiple . Version 1.0. Universit Lumire Lyon 2.
Ricco RAKOTOMALALA 2015, Pratique de la Rgression Linaire Multiple . Diagnostic et
slection de variables. Universit Lumire Lyon 2.
Yves TILLE 2011, Rsum du cours de modles de rgression.

Page | 141

You might also like