You are on page 1of 12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

Module 4 : vrification des hypothses dapplication de


la rgression et robustesse du modle

Dans les paragraphes prcdents on a suppos que les hypothses dapplication de la rgression
taient vrifies ce qui permet de montrer les proprits remarquables (BLUE) des estimateurs, de
construire des tests des paramtres et du coefficient de dtermination et enfin dlaborer des
intervalles de confiance prvisionnels. Limportance de ces hypothses tant manifeste, il est
indispensable de les vrifier pour contrler la qualit statistique et donc oprationnelle du modle de
rgression.
Lhypothse dindpendance de la variable explicative est une hypothse ad hoc. Il en est de mme
dans ce cours de celle concernant le sens de causalit entre deux variables ainsi que labsence de
tendances communes pouvant conduire une spurious rgression (rgression factice, c'est--dire
une rgression qui semble de bonne qualit cause dune tendance semblable entre les deux
variables (r lev) mais qui dans la ralit nest quune covariation).
En dfinitive, ce sont les hypothses sur lala qui font lobjet de ce paragraphe. Rappelons que lala
est une succession temporelle (pour le modle choisi ici) de variables alatoires centres,
homoscdastiques, non autocorrles et obissant une loi normale. Cet ala est inconnu.
Lhypothse fondamentale sur laquelle repose le modle de rgression cest que le rsidu du modle

est un chantillon de cette famille de variables alatoires. De ce fait, si le rsidu


(connu) e t = Yt Y
t
vrifie, partir de ses caractristiques, les proprits de lala, on dira quil est issu de la famille des
variables alatoires. On utilise ainsi la moyenne, la variance, lautocorrlation, et lhistogramme des
rsidus pour vrifier les hypothses dapplication du modle de rgression (units 1, 2, 3 et 4).
Il est enfin possible de vrifier si le modle estim est valide dans diverses circonstances : cest la
robustesse (unit 5)

1 Lhypothse de nullit de lesprance mathmatique de lerreur E[ t ] = 0


On veut tester E[ t ] = 0 On utilise la moyenne des rsidus e =


On sait que : e N m, e

e m

n N(0,1)
soit
n
e

On construit alors le test de signification : H0 : m = 0


Si

e 0
e

1
e t pour vrifier cette hypothse.
n t

contre H1 : m 0

n < 1,96 (le quantile 95% de la loi normale centre rduite) alors lhypothse H0 est

vrifie.
Cette hypothse ne joue pas un rle important dans la rgression puisquon sait que e t = y t y t et
donc par construction e = 0 . Il sagit donc dune hypothse ad hoc et lutilit de ce test ne se justifie
que dans dautres applications (sries temporelles par exemple)

2 Lhypothse de non autocorrlation des erreurs E[ t t ' ] = 0


On va tester E[ t t ' ] = 0

t, t' , t t'

2.1 Dtection de lautocorrlation


L3MS2_M5.doc

1/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

. Il y a autocorrlation toutes les fois o on peut


Lautocorrlation concerne les rsidus : e t = Yt Y
t
trouver un coefficient de corrlation linaire significativement diffrent de 0 entre la chronique des
rsidus et cette mme chronique dcale dun ou de plusieurs pas de temps.

Si on note k le pas de temps du dcalage temporel k N* et rk le coefficient de corrlation linaire


simple correspondant, on peut construire la Fonction dAutoCorrlation des rsidus :

k N* rk [ 1,+1]
FAC

dont la reprsentation graphique est le corrlogramme :

rk
+1

r3
r1

rk

k
K

-1

r2

K est le dcalage maximal pour lequel rk a un sens statistique (le nombre de points permettant le
calcul de rk ). En gnral

n
n
K
6
3

Si les rsidus sont une bonne reprsentation de lala, ils doivent vrifier lhypothse de non
autocorrlation ; cela signifie que toutes les autocorrlations successives doivent tre non
significativement diffrentes de 0.

2.2 Principales causes de lautocorrlation


Plusieurs raisons peuvent tre la cause dune autocorrlation. On peut citer :
- Les variables de dpart ne vrifient pas lhypothse de stationnarit, cest--dire quelles peuvent
contenir des tendances dterministes (trend linaire) ou stochastiques (promenade alatoire)
communes, ce qui est gnrateur dune rgression factice pour laquelle le r 2 est proche de 1 avec
une autocorrlation importante du rsidu.
- Les variables de dpart taient saisonnires et elles ont t mal dsaisonnalises.
- Les variables contiennent des phnomnes exceptionnels (grves,) qui sont mal expliqus par le
modle.
- Les variables de dpart possdaient des non informations qui ont t corriges par extrapolation
linaire

2.3 Les effets de lautocorrlation des erreurs


Considrons le modle sous la forme :

y t = x t + t
Et supposons que :

t obisse un processus autorgressif dordre 1, cest--dire quil existe entre t et t 1 un modle


de rgression linaire :
L3MS2_M5.doc

2/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

t = t 1 + t avec

E[ t ] = 0

< 1 (qui assure la stabilit du modle) et V [ t ] = n2

Cov t t ' = 0

[ ]

On sait que :

xt yt
x 2t

= wtyt

avec w t =

xt

x 2t

= w t Yt Y = w t Yt Y w t
123
=0

Do

= w t ( + X t + t )
= w t + w t X t + w t t
123
1
424
3
=1

= + w tt
Do

[]

E = + w t E[ t ]
123
=0

 Lestimateur reste sans biais quelque soit E[ t ] .


On peut vrifier cependant que :

t = t 1 + t scrit :
t = ( t 2 + t 1 ) + t
= 2 t 2 + t 1 + t

L etc L
t = t + t 1 + 2 t 2 + L
=

=0

E[ t ] =

[ t4
E1
3
]
42

=0

=0

 La variance de scrit :

[]

V = 2 /

x 2t

[ ]]2

= E E

[ ]

2
Comme V [ t ] = E t E[ t ] = E t
{

=0

On a :
L3MS2_M5.doc

3/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

t = t + t 1 + 2 t 2 + L

2t = 2 + 2 2 + L + 2 t t 1 + L
t 1

Do

[ ]

E 2t = E 2 + 2E 2 + L + 2E[ t t 1 ] + L
t
t 1
14243
=0

= 2 + 2 2 + K + 0

= 2 1 + 2 + L
Or : < 1 do :

[ ]

E 2t =

1
1

2 = 2

De ce fait :

[]

V =

1
2

x 2t
t

En conclusion, lorsquil y a autocorrlation des erreurs (ici dordre 1)


- les estimateurs restent sans biais.
- les variances dchantillon des coefficients de rgression ne sont plus

minimales : plus lautocorrlation est forte 1 plus la quantit

1 2
est grande et donc plus forte est la sous-estimation de la variance de .

La mthode des MCO nest donc pas, dans ce cas, la meilleure des mthodes pour estimer le
modle. Elle sous-estime les variances vraies dans le cas dune autocorrlation positive par exemple,
ce qui a pour consquence une surestimation de la prvision de lestimation. Dans le cas dune
prvision, on naura plus des valeurs de la variable endogne les meilleures possibles.
Lautocorrlation remet en cause lestimation du MLGS par les MCO ; on doit disposer de tests
permettant de la dtecter.

2.4 Tests dautocorrlation des rsidus


Le plus utilis est le test de Durbin-Watson. Ces auteurs proposent la statistique suivante :
n 1

(e t + 1 e t )2

DW = t =1

e 2t

t =1

Pour n grand :
n1

n1

t =1

t =1

e 2t +1 e 2t

L3MS2_M5.doc

e 2t

t =1

; on peut alors approximer DW par la quantit : DW = 2(1 )

4/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

avec

M4

t +1 t

t
n

e
t =1

2
t

est lestimation, par les MCO, du modle e t +1 = e t + t

avec < 1

- si 0 , absence de corrlation dans les rsidus DW 2 ;


- si 1 , forte autocorrlation positive dans les rsidus DW 0
- si 1 , forte autocorrlation ngative dans les rsidus DW 4
Durbin-Watson ont montr que la statistique DW dpendait de deux valeurs d1 et d 2 , indpendantes
de X t ; ce sont des variables alatoires fonction de t . Ils en ont tabul les valeurs pour n (nombre
dobservations), K (nombre de variables exognes) donnes et deux seuils 5% et 10%. Le test se
droule de la faon suivante :
- On calcule DWc (avec

e t et la formule non simplifie) ;

- On place le rsultat trouv dans le tableau suivant :


0

d1

Autocorrlation
>0

d2
Doute

4 d2

indpendance

4 d1
Doute

Autocorrlation
<0

Ce test prsente linconvnient de ne pouvoir dceler que les autocorrlations dordre 1. On peut
remdier ce problme en utilisant les rsultats de la FAC (Fonction dautocorrlation). Chaque
autocorrlation peut tre teste par un test classique de signification de Student :

H0 : k = 0

tc =

rk
1 rk2

H1 : k 0

n 2 < Tlu (n 2) on est sous lhypothse H0.

[ ]

3 Lhypothse dhomoscdasticit des erreurs E 2t = 2

[ ]

On va tester E 2t = 2

3.1 Dfinition
Lhomoscdasticit peut tre considre comme un cas particulier de la non autocorrlation
E[ t t ' ] = 0 ; lorsque t = t alors :

[ ]

Cov[ t , t ' ] = Cov [ t , t ] = E[[ t E[ t ]][ t E[ t ]]] = E 2t = 2


Il y a htroscdasticit lorsque la variance des variables alatoires qui composent t sont diffrentes
au cours du temps. Les consquences de lhtroscdasticit sont, par construction, identiques
celles de lautocorrlation :
- les estimateurs des paramtres restent sans biais.
L3MS2_M5.doc

5/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

- les estimateurs des paramtres ne sont plus de variance minimale.


Il faut donc, comme pour lautocorrlation, dtecter une prsence possible dhtroscdasticit en
utilisant le rsidu e t , seule information disponible concernant t .

3.2 Tests dhtroscdasticit


 Test paramtrique de Goldfeld-Quandt
Il sapplique toutes les fois o lcart type de lerreur du modle saccrot proportionnellement avec la
variable explicative du modle.
Ecriture de cette hypothse :

[ ]

[ ]

E 2t = aX t E 2t = a 2 X 2t
Principe du test :
On ordonne les observations des variables Yt et X t en fonction des valeurs croissantes de X t .
On nglige les observations centrales de lchantillon. On appelle m le nombre de ces observations
ngliges.
Comme m dpend de n, on prend pour n = 30, m = 8 et pour n = 60, m = 16, etc.
On obtient deux sous chantillons, lun correspond aux faibles valeurs de X t (premier chantillon),
lautre aux fortes valeurs ( deuxime chantillon). On applique les MCO sur les
faibles et sur les

nm
observations
2

nm
observations fortes. (Il faut que les deux chantillons soient suffisamment
2

importants).
On appelle SCR1 la somme des carrs des rsidus du premier chantillon, SCR2 la somme des carrs
des rsidus du second chantillon. On dmontre alors que :

SCR 2
nm 4 nm 4
F1 p
;

SCR1
2
2

Les hypothses du test sont :


H0 : homoscdasticit H1 : htroscdasticit (SCR2 > SCR1)
Rgle de dcision :

si

si

SCR 2
< F1 H0 accepte au rique de 1re espce p hom oscdasticit
SCR1
SCR 2
F1 H0 rejete au rique de 1re espce p htroscdasticit
SCR1

 Test de Glejser
Ce test propose de rgresser la valeur absolue des rsidus de la rgression avec la variable
explicative X t . On considre des fonctions simples du type, (selon lhypothse prcdente) :

e t = a 0 + a1X t + t avec t =ala vrifiant les hypothses de base


a
e t = a0 + 1 + t
Xt
e t = a 0 + a1 X t + t
L3MS2_M5.doc

6/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

e t = a0 +

a1
Xt

M4

+ t

Lhypothse dhomoscdasticit est vrifie si le paramtre a1 nest pas significativement diffrent de


zro.
Do le test :

H0 : a1 = 0 (hom oscdasticit )

H1 : a1 0 (htroscd asticit )

On applique alors la mthode des MCO aux diffrents modles proposs par Glejser :

tc =

a1
T(n 2)
a1

Si t c < Tlu (n 2 ) H0 accepte au risque de 1re espce p hom oscdastic it

 Test Arch - LM
Il sagit dun test de conception diffrente utilis principalement pour les sries temporelles. Les
modles AutoRgressifs Conditionnellement Htroscdastique (ARCH) ont t introduits par Engle
en 1982 pour modliser la volatilit des cours boursiers. Un reprsentant de ce modle est associ au
test du Multiplicateur de Lagrange (test du 2 ) pour vrifier lhypothse dhomoscdasticit du rsidu

e t (qui est une srie chronologique).


Droulement du test :
- On considre le modle suivant, appel modle autorgressif de retard p, sur le carr des rsidus :

e 2t = 0 + 1e 2t 1 + L + p e 2t p + t
- On estime le modle par la mthode des MCO (il sagit dun modle plusieurs variables qui sera
tudi ultrieurement).

e 2t = 0 + 1e 2t 1 + L + p e 2t p
- On calcule la statistique :

nR 2 avec

R 2 le coefficient de dtermination du modle


n le nombre dobservations

- On dmontre que : nR 2 2 (p)


Sous lhypothse H0 du test, les coefficients du modle ne sont pas significativement diffrents de
zro (ils sont donc significativement gal zro) : 1 = L p = 0
De ce fait : e 2t = 0 + t et V[e t ] = e 2t = ( 0 + t ) = + 0 = 0 , il y a homoscdasticit
n
n

Do le test :

H0 : 1 = L p = 0 (homoscdasticit) H1 : un au moins des coefficients de 0 (htroscdasticit)


Si nR 2 < 2 (p ) on est sous lhypothse H0 donc homoscdasticit.
p le nombre de retard est choisi successivement dans N*.

 Test de White
L3MS2_M5.doc

7/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

On effectue une rgression entre le carr du rsidu et une ou plusieurs variables explicatives en
niveau et au carr (ici, on considre une seule variable explicative puisque lon se place dans le cas
du modle linaire gnral simple 2 variables), cest--dire :

e 2t = a 0 + a1X1t + b1X12t + t
Si lun de ces coefficients de rgression ( a1 ou b1 ) est significativement diffrent de 0, on accepte
lhypothse dhtroscdasticit. Deux manires pour effectuer le test :
1) On effectue un test de Fisher : H0 : a1 = b1 = a 0 = 0
On construit le Fisher calcul suivant :

Fc =

R2

nk
o k reprsente le nombre total de paramtres estims (ici, k=3)
1 R k 1
2

Fc F(k 1, n k )
Rgle de dcision :
Si Fc < F1 p (k 1, n k ) alors Ho accepte au risque de 1
Si Fc F1 p (k 1, n k ) alors Ho rejete au risque de 1

re

re

espce p homoscdasticit

espce p htroscdasticit

2) Soit on recourt la statistique LM 2 (p = K )


K tant le nombre de variable explicatives, ici K=2

LM = nR 2 > 2 (p ) H0 rejete au risque de 1re espce p htroscdasticit


LM = nR 2 < 2 (p ) H0 accepte au risque de 1re espce p homoscdasticit

4. Lhypothse de normalit des erreurs : t N(0, )


On veut tester t N(0, )
Cette hypothse est indispensable pour calculer les estimateurs du maximum de vraisemblance mais
aussi et surtout pour raliser nombre de tests concernant les caractristiques du modle de
rgression (test de Student des paramtres, test de Fisher du r etc ). On utilise dans la pratique le
test de Jarque et Bra fond sur la notion de skewness (asymtrie) et du Kurtosis (aplatissement).
Nanmoins il est toujours possible de recourir aux tests standards dajustement dune loi normale
une distribution empirique (comme le test du 2 ).
Principales tapes du test de Jarque et Bra :
On construit lhistogramme du rsidu e t en dcoupant ltendu du rsidu en classes damplitudes
gales. On calcule alors aprs avoir affect chacune des classes le nombre de fois que le rsidu se
rpte :
1

Le coefficient du skewness : 1 2 =
Le coefficient du Kurtosis 2 =

4
4

3
3

o 3 est le moment centr dordre 3 de la distribution.

o 4 est le moment centr dordre 4 de la distribution.

On dmontre que :

L3MS2_M5.doc

8/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

6
24
1 2 N 0,
et 2 N 3,

n
n

Remarque : il est donc possible de raliser un test de symtrie et daplatissement en utilisant les lois
normales centres rduites. :
1

1=

1 2 0
6
n

3
N(0,1)
N(0,1) et 2 = 2
24
n

Les tests de symtrie et daplatissement normal se font ainsi :


H0 : aplatissement normal
1

si

1 2 0
6
n

< 1,96 (le quantile 95% de la loi normale centre rduite) alors H0 est accepte au

risque de 5% donc aplatissement normal.


1

si

1 2 0
6
n

1,96 alors H0 est rejete au risque de 5%.

H0 : symtrie normale

Si

2 3
24
n

Si

2 3
24
n

< 1,96 alors H0 est accepte au risque de 5% donc symtrie normale.

1,96 alors H0 est rejete au risque de 5%.

Pour vrifier lhypothse de normalit, il faut la fois laplatissement normal et la symtrie normale.

De ce fait la statistique (due Jarque Bra) note JB scrit :

JB =

n
n
1 +
( 2 3)2 Elle obt un 2 (2) (somme de deux lois normales au carr). Le test se
6
24

droule de la faon suivante :


-

Hypothse : H0 : la distribution obit une loi normale H1 : la distribution nobit pas une
loi normale

Calcul de JB

Si JB < 2 (2) (gal 5,99 au seuil = 0,05 ) on est sous lhypothse H0 de normalit.

L3MS2_M5.doc

9/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

5. La robustesse du modle
Un modle est dit robuste lorsquil est valide dans des circonstances diffrentes.
Exemple : lestimation de la fonction de consommation pendant la premire moiti du XX sicle estelle reste identique celle de la deuxime moiti ?
La relation prix rcolte de vin est-elle reste identique aprs lintroduction de la viticulture dans le
march commun en 1970 ?
Dans ces exemples, appels exemples de robustesses structurelles, ltude porte sur des poques de
temps conscutives, mais elle peut concerner des priodes qui se chevauchent. Cette robustesse
peut aussi tre lie des problmes dhomognit spatiale. La robustesse concerne aussi le sens de
la causalit de la relation conomique.
Dans ce cours, on dira quun modle est robuste, si quels que soient les sous-ensembles constitus
partir dobservations conscutives sur la priode [1,n], les estimateurs du mme modle sur chacun
de ces sous-ensembles sont :
-

valides (test des paramtres, R, rsidus)

stables : les paramtres estims ne sont pas significativement diffrents entre eux, et

et .
diffrents de
Cette dfinition amne sur le plan statistique comparer les estimations des paramtres entre eux et
les qualits de la rgression entre elles. Trois tests de stabilit sont prsents

5.1 Tests de comparaison de deux coefficients de corrlation


Ils permettent de sassurer que les relations sont bien de type linaire et quelles ne sont pas
globalement diffrentes.
Supposons que, sur la priode [1,n], on construise 2 sous priodes de cardinal n1 et n 2 . Soient r1 et
r2 , les coefficients de corrlation linaire des deux sous priodes chantillons.
On montre quun coefficient de corrlation ne suit pas une distribution dexpression simple autour de
son esprance mathmatique : la distribution est fortement asymtrique pour les valeurs loignes de
zro. Ainsi pour comparer deux coefficients de corrlation on peut utiliser au pralable la
transformation non linaire de FISHER :

z = Argth =

1
1+
Log
avec Argth : fonction Argument tangente hyperbolique et Log le logarithme
2
1

nprien :

E(z ) = Argth avec

1
2
V (z ) = s (z ) = n 3

E[r ] =

z1 = Argth 1
z 2 = Argth 2

Si on note alors :

La diffrence d = z1 z 2 a pour caractristique :

E(d) = E(z1 ) E(z 2 ) = 0


V (d) = V (z1 ) + V (Z 2 )
=

1
1
+
n1 3 n 2 3

. Elle est gale d = z ' z '


La valeur estime de d est d
1
2
L3MS2_M5.doc

10/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

M4

'
1 + r1
1

z1 = Argth r1 = Log
2

1 r1
Avec
1 + r2
1

z 2 = Argth r2 = 2 Log 1 r
2

On teste alors lhypothse H0 : d = 0


Sous lhypothse H0 on a : t c =

H1 : d 0

()

d
N(0,1) avec s d =
s d

()

1
1
+
n1 3 n 2 3

La rgle de dcision est alors la suivante :

si t c 1,96 H0 rejete au rique de 5%

si t c < 1,96 H0 accepte au rique de 5%


Si H0 accepte, la diffrence entre les deux coefficients r1 et r2 nest pas significativement diffrente
de 0.

5.2 Tests de comparaison de deux coefficients de rgression


Soient 1 et 2 , les deux coefficients de rgression estims sur les deux sous-ensembles de
cardinal n1 et n 2 .Considrons lhypothse H0 : les deux coefficients ne sont pas significativement

= 1 2 nest pas significativement diffrente de


diffrents. Si cette hypothse est vraie alors d
zro. En effet, le caractre non biais de 1 et 2 permet dcrire que :

E[ 1 ] = E[ 2 ] = Do : E[ 1 ] E[ 2 ] = E[ 1 2 ] = 0
De plus comme 1 et 2 sont deux variables alatoires indpendantes on a :

s 2 [d] = s 2 [ 1 ] + s 2 [ 2 ] Do :
tc =

d
T1 (n1 + n 2 4 )
s d

[]

Do le test : H0 : d = 1 2 = 0

H1 : d 0

Et la rgle de dcision :
Si t c =

[ ] < T1 (n1 + n2 4) on est sous lhypothse H0 et donc les deux coefficients ne sont

s d

pas significativement diffrents.

5.3 Tests de stabilit du modle : test de Chow


Ce test est une prsentation diffrente du test de comparaison de deux coefficients de rgression.
Soit SCR 0 : la somme des carrs des rsidus du modle sur toute la priode et SCR1 et SCR 2 la
somme des carrs des rsidus sur chacune des deux sous priodes.
On teste H0 : 1 = 2

L3MS2_M5.doc

H1 : 1 2

11/12

L3 Mathmatique et Statistique 2 Vrification des hypothses dapplication de la rgression

Sous H0 : Fc =

(n 4 )SCR 0 (SCR1 + SCR 2 ) F

1 p

SCR1 + SCR 2

M4

(2, n 4)

Rgle de dcision :
Si Fc F1 p (2, n 4 ) H0 rejete au risque de 1

re

espce p

Si Fc < F1 p (2, n 4 ) H0 accepte au risque de 1


significativement diffrents.

re

espce p donc les deux coefficients sont

5.4 Une tude simple de la robustesse : les rgressions roulantes


La rgression roulante consiste rgresser le modle sur un nombre suffisant ( n1 ) dobservations en
dbut de priode puis de ritrer lestimation en rajoutant une observation n1 jusquen fin de
priode. (en accroissant le nombre dobservations sur laxe du temps). Pour chacune des rgressions
on mmorise une ou plusieurs caractristiques (t de Student, r 2 , DWc) que lon reprsente
graphiquement. La stabilit au cours du temps de ces caractristiques est une indication de la
robustesse du modle.
Remarque : il est possible dutiliser les rgressions roulantes de linstant 1 vers linstant n (rgression
Forward) ou au contraire de n vers 1 (rgression backward)

Bibliographie :
ime

Rgis BOURBONNAIS (2009) : Economtrie - Dunod - 7

dition
ime

J JOHNSTON, J DINARDO (1999) : Mthodes conomtriques Economica - 4

L3MS2_M5.doc

dition

12/12

You might also like