Professional Documents
Culture Documents
UPC
A travers cette contre chaotique, des hommes audacieux et tenaces ont lanc le premier chemin de fer de
lAfrique centrale.
Henry Merton Stanley
N'essayez pas de devenir un homme qui a du succs. Essayez de devenir un homme qui a de la valeur.
Albert Einstein
PLAN SOMMAIRE
AVANT PROPOS
INTRODUCTION
THEORIE DE LA CORRELATION
MODELE DE REGRESSION LINEAIRE SIMPLE
MODELE DE REGRESSION LINEAIRE MULTIPLE
MODELES DE REGRESSION NON LINEAIRES
VIOLATION DES HYPOTHESES DE BASE
ANNEXES
AVANT-PROPOS
Je ne peux nier, quand jai commenc la rdaction de ce recueil, lambition de confectionner un vade-mecum
dintroduction lEconomtrie lintention des tudiants de premire licence FAS. Mais le nombre de projets
sur la file dattente et les nombreux dfis entre lesquels il me faut partager mon temps dune part, et le besoin
rel et urgent chez les tudiants de disposer dun recueil qui accompagne le cours magistral assur par le
professeur dautre part, mont oblig ne produire quune bauche.
Le projet de proposer ce recueil est n de la dception et de linsatisfaction que jprouvais, encore tudiant,
lors des sances TP dEconomtrie 1. Alors quailleurs ils prennent de la vitesse, nous, me semblait-il, on
tombait, paradoxalement, dans la suffisance.
Ce recueil a donc t rdig de faon permettre aux tudiants de porter un autre regard sur les notions quils
apprennent pendant le cours thorique et de voir plus loin que moi. Le choix des applications a galement t
fait dans cette optique. On remarquera que, par souci pdagogique et dexcellence, je me suis plus attard sur
les aspects et les dmonstrations les moins populaires, bref, sur les non-dits.
Les tudiants passionns et qui veulent aller loin en Economtrie, trouveront aussi, en annexe, une initiation au
logiciel conomtrique EVIEWS.
Enfin, en le mettant la disposition du public, je formule le vu que ce recueil suscite, parmi mes tudiants et
mes collgues de la FAS, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi viter que
nos efforts pour lavancement de cette facult ne sessoufflent et natteignent, prmaturment, un tat
stationnaire , ce qui serait dommage .
Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance quil a eue en moi vrai dire, sans vraiment
me connatre et pour mavoir orient dans la rdaction de ce recueil.
Mes sincres remerciements vont mon an et mon ami lassistant Jean-Paul Tsasa V. Kimbambu, pour nos
nombreuses discussions, parfois laisses en queue de poisson, et pour lidal quil ma transmis.
Je remercie aussi mes tudiants de premire licence FAS, de la promotion 2011-2012, pour avoir beaucoup
exig et attendu de moi ; ils mont contraint plus de srieux dans le travail, et je leur en suis reconnaissant.
Bien entendu, ce support nengage que son auteur. Toute remarque pertinente pouvant en amliorer le
contenu sera la bienvenue.
Ddicace
Je ddie ce recueil lavenir du LAREQ et lmergence dune nouvelle classe denseignants lUPC.
Cdrick Tombola M.
cedrictombola@lareq.com
.I.
INTRODUCTION
I.1. Quelques points de lhistoire
. Avant 1930 : Le Moyen-ge conomtrique
Les premiers dveloppements de lEconomtrie1 peuvent remonter, selon Grard Grellet, au 17me sicle,
lpoque de lArithmtique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs
comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modlisation partir des
donnes empiriques.
Selon dautres auteurs, on doit la gense de lEconomtrie aux travaux de tentative dunification de
lEconomie et la Statistique dAuguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en
Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentrent dlaborer des lois
conomiques { linstar des lois de la physique newtonienne.
Mais il convient simplement de retenir que nombre de mthodes et techniques auxquelles recourt
lEconomtrie, ont t dveloppes bien avant son institutionnalisation comme discipline des sciences
conomiques. A titre dexemple :
- En 1805, dans son ouvrage intitul Nouvelles mthodes pour la dtermination des orbites des comtes ,
puis en 1806 dans la deuxime dition du mme ouvrage, le mathmaticien franais Adrien-Marie Legendre
propose, par une mthode algbrique, le premier dveloppement rigoureux de la mthode des moindres
carrs ordinaires.
- En 1809, Carl Friedrich Gauss, dans son trait Theoria motus corporum coelestium , propose, par une
approche probabiliste, un autre dveloppement rigoureux de la mthode des moindres carrs ordinaires
dont il se rclame la paternit. Dans une lettre adresse Pierre-Simon de Laplace2, il explique quil avait
fait usage de cette mthode dj en 1795, et de manire un peu plus frquente, dans ces calculs
astronomiques sur les nouvelles plantes, depuis 1802.
Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov dmontrent que lestimateur des moindres carrs
ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. Cest--dire quil est le meilleur
estimateur linaire non biais, variance minimale.
- En 1886, dans son tude sur la transmission des caractres hrditaires, Francis Galton, de qui le terme
rgression tire son origine, fournit une premire rgression linaire. Plus tard, son disciple Karl Pearson, en
1896, dans son ouvrage La Grammaire de la Science , dveloppe la notion de corrlation linaire et
propose un estimateur pour cette grandeur.
La corrlation a t introduite en Economie en 1902, avec louvrage de Arthur Lyon Bowley Elements of
Statistic .
- En 1909, Georges Udny Yule invente les premires applications conomiques de la mthode de la
corrlation et introduit la mme occasion la notion de corrlation partielle. Et en 1926, il dnonce les
On attribue souvent tort au norvgien R. Frisch, la cration du mot conomtrie qui revient plutt Pavel Compria.
Il inclut lui-mme un expos de la mthode des moindres carrs ordinaires dans son trait de 1820 : Thorie
analytique des probabilits . En 1808, le mathmaticien amricain Robert Adrain a aussi publi une formulation de la
mthode des moindres carrs.
2
spurrious correlations , ce quil convient de traduire par corrlations fallacieuses. Puis montre que la
corrlation de deux sries chronologiques peut tre totalement artificielle.
. Depuis 1930 : La naissance de lEconomtrie moderne
Linstitutionnalisation de lEconomtrie en tant que discipline des sciences conomiques sest ralise en
1930 exactement le 29 dcembre 1930 { loccasion de la cration { Cleveland, aux Etats-Unis, par 16
conomistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cits, de lEconometric Society [la Socit
dEconomtrie] avec comme devise : pour lavancement de la thorie conomique dans ses relations avec la
statistique et les mathmatiques.
Depuis la cration de cette socit, et de la Cowles commission spcialise dans les mthodes
destimation des modles { quations simultanes , fonde le 9 septembre 1932, deux ans aprs
lEconometric Society, par Alfred Cowles, lEconomtrie a connu un grand essor.
Cest ainsi quen 1933, R. Frisch cre la revue Econometrica pour la promotion des tudes qui ont pour but
une unification des approches quantitatives thoriques et empiriques des problmes conomiques.
On note aussi que ds le dpart, pour les promoteurs de lEconometric Society, il tait clair que deux
dviations devraient tre vites :
R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart,
Snyder , Wedervang, Wiener, Wilson.
4
Premier laurat du prix de la Banque de Sude communment appel prix Nobel en mmoire de son fondateur
Alfred Nobel dconomie en 1969 avec Jan Tinbergen.
Le premier choc ptrolier [en 1973] ou le quadruplement du prix des produits ptroliers, ce qui
marque, historiquement, la fin des Trente Glorieuses5 ;
La stagflation et la remise en cause de la courbe de Phillips;
La chute du keynsianisme et le rejet des modles conomtriques traditionnels devenus caducs
bass sur le paradigme IS LM ;
Le deuxime choc ptrolier [en 1979] ou le doublement du prix des produits ptroliers ;
La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroconomie
Microfonde, le retour aux modles walrassiens et le dveloppement des modles dquilibre
gnral calculable [MEGC].
Les critiques les plus acerbes et svres sont venues essentiellement, ds 1972, de Robert Emerson Lucas 6.
Cest ce que la littrature qualifie de la fameuse critique de Lucas. Il discrdite les modles
macroconomtriques traditionnels, en fustigeant leur incapacit expliquer et prvoir les
bouleversements provoqus par le 1r et le 2me chocs ptroliers. Il leur reproche de manquer de fondations
microconomiques suffisamment solides. De plus, Lucas interdit les prvisions myopes et adaptatives, il
pose la problmatique des anticipations rationnelles, ce qui veut dire que les agents conomiques sont
intelligents et capables de former leurs anticipations sur une base endogne et ainsi anticiper toute mesure
de politique conomique. De fait, toute mesure de politique conomique, ajoute-t-il, devient inefficace du
fait de la prise en compte des anticipations rationnelles, les agents pouvant lanticiper et la contrer.
Trente Glorieuses : Titre dun livre de Jean Fourasti, publi en 1977, qui dsigne la priode de forte croissance
conomique, de plein-emploi et daugmentation des salaires rels et des revenus, quont connu les pays dvelopps, de
laprs-guerre au premier choc ptrolier.
6
Laurat du prix Nobel dEconomie 1995.
Cette critique a pouss les conomtres penser plus profondment sur les fondements de leur discipline
et a donn lieu des critiques plus svres. LEconomtrie va connaitre un changement radical, surtout en
termes de relations quelle entretient avec la thorie conomique.
- En 1970, George Box et Gwilym Jenkins dveloppent le modle ARMA [AutoRegressive with Moving
Average] qui est un mlange des modles AR et MA dvelopps en 1927 respectivement par Georges Yule
et Eugen Slustsky , comme une rponse aux dfaillances constates dans la capacit de prvision des
modles labors la suite des travaux de Tinbergen.
- Dj en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les spurrious
regressions ou rgression fallacieuse, pour le cas dajustement par les MCO dun modle avec sries non
stationnaires.
- En 1980, dans un article qui a connu un succs destime lors de sa parution, intitul Macroeconomics and
Reality, Christopher Sims7, en gnralisant le modle ARMA en modle VAR [Vector Auto Regressive] afin
de tenir compte, au mme moment, de plusieurs variables, reproche aux conomtres davoir mis la
charrue devant les bufs en remettant en cause la distinction priori entre variables endognes et
variables exognes, et considre toute variable comme potentiellement endogne 8. Cest ce que la
littrature appellera lEconomtrie sans thorie. La critique de Sims va permettre { lEconomtrie de devenir
beaucoup plus autonome et de smanciper de la tutelle de la thorie conomique.
- En 1987, Clive Granger et Robert Engle dveloppent la mthode de cointgration dans le traitement des
sries non stationnaires. Une anne aprs, en 1988, Johansen propose une version amliore du test de
cointgration Engle Granger.
- En 1982, Robert Engle dveloppe le modle ARCH afin de prendre en compte la non linarit et la forte
volatilit des variables financires, ce qui ntait pas possible avec les modles ARMA et VAR.
Plusieurs mthodes encore ont t dveloppes depuis la fameuse critique de Lucas, et plus loin encore
dans lhistoire, depuis la cration de la socit dEconomtrie. LEconomtrie a donc connu, ces deux
dernires dcennies, un essor vertigineux.
. Applications et place de lconomtrie
La dmarche en sciences conomiques est hypothtico-dductive. Cest--dire que les thories conomiques
ne sont valables que dans le domaine dfini par leurs hypothses. Sil est vrai que lusage des
mathmatiques est la garantie de la rigueur et de la cohrence interne des thories conomiques
modernes, la question reste cependant pose quant la pertinence de leurs hypothses. Ceci motive le
recours { des outils plus puissants notamment lEconomtrie, qui est un outil de validation des thories.
De fait donc, lconomiste ne doit-il pas tre aussi conomtre ? John Maynard Keynes, dans les annes
1930, crivait : Lconomiste doit tre mathmaticien, historien, philosophe, homme dEtat, . Sil faut
transfrer la pense de Keynes aujourdhui, naurait-il pas lui-mme ajout lconomiste doit tre
conomtre ?
Il est clair quil nest plus possible { ce jour, de faire un bras de fer avec lirruption et la domination de
lEconomtrie dans le champ de la science conomique, au risque, purement et simplement, de se
soustraire de la catgorie dconomistes modernes.
Pour renchrir, dans une tude publie en 2006, les conomistes Kim, Morse et Zingales ont montr que le
nombre darticles empiriques cits en conomie est pass de 11 % 60 % entre 1970 et 2000. Ce qui confirme
limportance de plus en plus croissante de lEconomtrie dans lunivers des conomistes.
Par ailleurs, lEconomtrie s'applique tous les domaines auxquels s'applique la science conomique.
L'ouvrage de Levitt et Dubner, Freakonomics, tmoigne de la diversit des applications possibles de
l'conomtrie. Voici quelques exemples significatifs:
En conomie de guerre, Collier Hoeffler [1999] ont mis en vidence, par le recours un modle
conomtrique, les dterminants politiques permettant de mettre fin aux guerres civiles et de
relancer lconomie en priode post-conflit.
En conomie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilis un modle de rgression
linaire pour tester empiriquement la pertinence du modle de Solow. Ils montrent que le modle
de Solow augment du capital humain est cohrent avec les donnes observes. Barro et Sala-iMartin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux mthodes conomtriques afin
de rendre compte de leffet des dpenses publiques sur la croissance.
En conomie de la criminalit, Levitt, en 1997, a utilis un modle linaire variables instrumentales
pour estimer l'effet du nombre de policiers sur la criminalit.
En 2002, Acemoglu, Johnson et Robinson ont utilis une rgression linaire pour estimer l'effet des
institutions sur le dveloppement actuel des pays.
En ralit, on ne dispose pas de caractristiques rpondant simultanment ces six conditions. Le choix
dun indicateur sera lobjet dun compromis guid par la spcificit de ltude en cours.
Source : Adapt de B. Goldfard et C. Pardoux, 1995.
1.
La moyenne arithmtique :
La moyenne arithmtique9 est la mesure de rpartition quitable. Elle conserve la somme totale et satisfait toutes les
conditions de Yule, sauf la 5me, car elle est une mesure sensible aux valeurs extrmes.
Lorsque les valeurs sont alatoires, la moyenne arithmtique est appele Esprance mathmatique .
2. La mdiane [Me] : est la mesure qui divise la srie en deux groupes de tailles gales. Aprs avoir class les
donnes en ordre croissant, elle correspond pour n impair [pair], au point milieu [ la moyenne arithmtique de deux
points milieux].
Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement la moyenne arithmtique, la mdiane rsiste aux
valeurs extrmes.
3. Le mode [Mo] : est la valeur dominante de la srie, celle qui a la frquence la plus leve.
Pour une distribution discrte, le mode satisfait aux conditions 1, 3 et 4 de Yule.
Le premier Quartile Q1
[ou quantile dordre 1,
x25%]
4.
Les quartiles
Le deuxime Quartile
[ou quantile dordre
x50%]
Le troisime Quartile
[ou quantile dordre
x75%]
Q2
2,
Q3
3,
Valeur telle quau moins 25% des valeurs prises par X lui sont
infrieures. Aprs avoir class les donnes et spar la
population en deux, le Q1 est la mdiane de la premire souspopulation.
Le Q2 est la mdiane.
Valeur telle quau moins 75% des valeurs prises par x lui sont
infrieures. Le Q3 est la mdiane de la deuxime souspopulation.
Note : Les quartiles non plus ne subissent pas linfluence des valeurs extrmes. Comme la mdiane, les quartiles
satisfont aux conditions 1, 3, 4 et 5 de Yule.
Indicateurs de dispersion
5.
La variance :
La variance empirique :
La variance est la moyenne arithmtique des carrs des carts dune variable { sa moyenne arithmtique. Elle donne
une ide de la dispersion [ou dviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec
la variance on change dchelle, elle sexprime dans le carr de lunit en laquelle sexpriment les observations. Pour
revenir { lchelle du dpart, on prend sa racine carre qui est lcart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.
Note : La variance empirique est lestimateur non biais de la variance. La variance est un estimateur biais car utilisant
un autre estimateur dans son calcul.
6. Lcart-type :
Lcart-type empirique :
Lcart-type est la racine carre de la variance. Il est la mesure de dispersion la plus utilise. Elle satisfait aux conditions
1, 2 et 6 de Yule, et est plus sensible aux fluctuations dchantillonnage et aux valeurs extrmes que la moyenne
arithmtique, en raison des lvations au carr.
7. Ltendue : max xt min xt
Ltendue est la diffrence entre la plus grande et la plus petite des valeurs observes. Elle est trs influence par les
valeurs extrmes et ne satisfait pas aux conditions 2 et 5 de Yule.
8. LEtendue [cart] interquartile : EIQ = Q3 Q1
Lcart interquartile nest pas sensible aux valeurs extrmes.
Dans le langage courant, on dit simplement moyenne. Or, selon la manire dont le total des individus est calcul, il
existe diffrentes moyennes [moyenne gomtrique, moyenne harmonique, moyenne quadratique].
10
1 est nul pour une distribution symtrique, telle que la loi normale.
Asymtrie gauche [distribution
tale droite]
Distribution symtrique
1<0
=Me=Mo
1=0
1>0
10. Laplatissement [Kurtosis en grec, qui signifie bosse] : est bas sur le moment centr dordre 4 et permet de
mesurer limportance des queues dune distribution ou son aplatissement.
Le coefficient daplatissement de Fisher : 2 =
2 est nul pour une distribution mesokurtique. Cest le cas dune distribution gaussienne [normale].
Distribution mesokurtique
Distribution platokurtique
2<0
Cas de la distribution de Student
2=0
Cas de la distribution normale
Distribution leptokurtique
2>0
La loi normale
La loi normale est une des principales distributions de probabilit. On dit quelle est parfaite, car sa densit de
probabilit dessine une courbe en cloche ou courbe de Gauss, qui est la fois symtrique et mesokurtique.
Elle a t introduite, en 1733, par le mathmaticien Abraham de Moivre, et mise en vidente plus tard, au 19 me sicle,
par Carl F. Gauss. Elle est galement connue sous le nom de la loi de Gauss. Une variable distribue selon cette loi est
dite normale ou gaussienne.
11
Un test d'hypothse est une dmarche consistant valuer une hypothse statistique en fonction d'un chantillon. Il
sagit donc de confronter une hypothse dite nulle [HO] contre une hypothse de recherche ou alternative [H1].
Une notion essentielle qui concerne les tests est la probabilit que l'on a de se tromper. Il existe deux faons de se
tromper lors dun test statistique :
La premire faon de se tromper est de commettre lerreur [ou risque] de premire espce, not , qui est
la probabilit de rejeter tort HO alors quelle est vraie. On dit, dans ce cas, que est la probabilit davoir un
faux positif.
La deuxime faon de se tromper est de commettre lerreur [ou risque] de deuxime espce, not , qui est
la probabilit de ne pas rejeter HO alors quelle est fausse. On dit, dans ce cas, que est la probabilit davoir
un faux ngatif.
HO est vraie
Ne pas rejeter HO
Rejeter HO
HO est fausse
Erreur de 2me espce
Lidal serait que ces deux erreurs soient nulles, mais puisque lon ne dispose que dun nombre fini dobservations, il
faut faire un choix.
Le risque tant difficile { valuer, voire impossible, seul le risque est utilis comme critre de dcision.
Note : On accepte une hypothse en refusant sa fausset et non en acceptant sa vrit.
Tests informels
Tests formels
[ou
En termes defficacit
Si n > 88
Si n 50
Si n 20
Les tests informels donnent une prsomption tandis que les tests formels apportent une approche plus rigoureuse et
objective.
Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.
10
11
Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118.
Il existe une batterie de test de normalit, ici nous ne reprenons que quelques uns.
12
Le Box plot, invent par Tukey en 1977, est un outil graphique trs pratique qui permet de caractriser
une distribution en fournissant un rsum riche dinformations sur sa dispersion et son asymtrie.
Du fait quil renseigne sur lasymtrie dune distribution, le Box plot est galement utilise comme test de
normalit.
Les tapes suivre dans sa construction peuvent tre rsumes comme suit :
a. Porter sur une chelle les valeurs calcules suivantes : Q1, Q2, Q3, Min xi et Max xi
b. Construire la bote : - La longueur de la bote est donne par lEIQ
- La largeur de la bote est fixe priori.
c. Calculer la longueur des moustaches ou des pattes [infrieure et suprieure] :
Pour savoir jusquo vont les moustaches, on calcule deux valeurs adjacentes :
Frontire Basse [FB]= Q1 1.5EIQ
Frontire Haute [FH]= Q3 + 1.5EIQ
Selon Tukey, la valeur 1.5 serait plus pragmatique.
Pour la longueur de la moustache infrieure : prendre, parmi les valeurs xi prises par X, la valeur minimale
xb directement suprieure FB, soit xb = min {xi| xi FB}.
Pour la longueur de la moustache suprieure : prendre, parmi les valeurs xi prises par X, la valeur maximale
xh directement infrieure FH, soit xh = max {xi| xi FH}.
A retenir :
- Pour une distribution symtrique, Q2 divise la bote exactement en deux parties gales.
- Pour une distribution symtrique, Q2= .
Illustration
Considrons lexemple suivant :
X
6
7
8
Q1 = 8.5
Q2 = 12
FB = 8.5 (1.5)7 = 2
9
10
11
12
Q3 = 15.5
EIQ = 7
FH = 15.5 + (1.5)7 = 26
13
14
15
16
17
18
Min xi = 6
et
Max xi= 18
= 12
Etendue = 10 Xb = 6 Xh =18
Etendue
*
FB
Min xi
Xb
Q1
Q2
EIQ
La croix lintrieur de la bote reprsente la moyenne.
Q3
Max xi
Xh
FH
13
Il ressort, puisque Q2 spare la bote en deux parties gales et que les queues ont une longueur identique,
que la distribution est symtrique, ce qui est une prsomption de normalit. De plus la mdiane (Q2) est
gale la moyenne.
Note : la Botepattes permet galement de dtecter les valeurs aberrantes ou singulires [dviants ou
atypiques ou encore outliers]. Aprs avoir construit le Box plot, est valeur aberrante celle situe au-del des
pattes.
. Le test de Jarque-Bera [JB]
Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalit les
plus populaires dans les milieux acadmiques. Mais la remarque { faire, dores et dj{, est quil est
particulirement appropri pour grand chantillon, soit n > 88.
Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste { ce quil
permet de conclure { la fois sur lasymtrie et limportance des queues [aplatissement] dune distribution.
Les hypothses du test sont :
H0 : Normalit
H1 : Non normalit
Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une distribution
du Khi deux 2 { degrs de libert avec le risque davoir un faux positif [ou seuil de signification] = 5%.
La statistique du test est calcule comme suit :
JB = n
Seuil
1%
5%
9.210
5.991
Valeur
W=
12
14
o
n : est la taille de lchantillon
Les donnes
La thorie conomique
Pour
tester
les
thories,
lEconomtrie utilise les donnes
observes, les informations fournies
par un chantillon.
Aujourdhui
encore,
malgr
lmancipation de lEconomtrie
depuis le fameux article de 1980 de
Sims, lon ne peut trancher en
dfaveur
du
mariage
thorie
conomique Economtrie.
Lconomtrie a principalement
recours trois types et deux formats
de donnes.
13
Les mthodes
En
recourant
aux
mthodes
statistiques,
et
partir
dinformations livres par le monde
rel, lconomtre poursuit un triple
objectif :
15
16
En gnral, le modle spcifi par lconomiste est dfini comme tant une maquette de la ralit ou dun
phnomne sous forme dquations dont les variables sont des grandeurs conomiques.
A ce sujet, Lester C. Thurow note ceci : Les quations dcrivent quoi ressemblerait le monde rel sil
ressemblait la thorie .
. Modle conomtrique
Toujours selon Barbancho, un modle conomtrique nest autre chose quun modle conomique qui
contient les spcifications ncessaires pour son application empirique. Cest donc le modle conomique
auquel on ajoute un terme derreur ut.
Ct=0 + 1Yt + ut
La premire partie de ce modle [0 + 1Yt] constitue sa partie systmatique et la deuxime [ut] sa partie
stochastique ou alatoire.
Il convient de noter galement que le terme derreur ut [bruit, perturbation ou ala] dnote de la diffrence
entre lconomiste et lconomtre. Il synthtise linfluence sur Ct [variable explique] de toutes les autres
variables oublies et des erreurs ventuelles de spcification de la forme fonctionnelle dans le modle
spcifi par lconomiste. De plus, sa prsence dans le modle rend les paramtres 0 et 1 inconnus, on ne
sait plus les calculer, il faut donc les estimer.
14
17
.II.
THEORIE DE LA CORRELATION
Lanalyse de la corrlation a pour objet de prsenter les mesures statistiques destines { rendre compte du
sens et de la force de la liaison mathmatique qui peut exister entre deux variables quantitatives X et Y. Il
faut, dores et dj{, noter que dans ce cadre, la position des variables est symtrique. Lanalyse ne permet
pas de distinguer variable endogne de la variable exogne.
Loutil graphique diagramme de dispersion ou graphique nuage de points est le plus adapt et indiqu
pour dbuter ltude de la corrlation. Aprs lavoir ralis, la forme du nuage des points renseigne
partir dun simple coup dil sur le type dune ventuelle liaison entre X et Y. Plusieurs situations sont
possibles :
Figures A. Relations linaires, de gauche droite, positive et ngative.
600
600
500
500
400
400
300
300
200
200
100
100
0
0
500
1000
1500
2000
500
1000
10
8
10
-100
2
0
0
0
10
15 -4
-2
2000
15
1500
120
100
80
60
40
20
0
-50 -20 0
-40
-60
-80
50
100
150
Lanalyse du plot donne certes une ide sur le sens et le type dassociation entre X et Y, mais elle ne permet
pas de quantifier son intensit.
Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours
au calcul de la covariance. Si on note par n la taille de lchantillon et i le numro de lobservation, la
covariance empirique15 entre X et Y est calcule par la formule :
Cov (X, Y) =
15
18
Lide est que si X et Y covarient, leur covariance devrait tre grande. Elle serait modrment faible si les
deux variables ne covarient pas.
Malheureusement, comme mesure du degr de dpendance entre X et Y, la covariance prsente la
faiblesse dtre fortement influence par les units de mesure des variables en prsence. Cest cette limite
qui a conduit au dveloppement des coefficients de corrlation.
rXY =
[2.1]
Si lon considre les carts { la moyenne arithmtique 16, la relation [2.1] peut galement scrire comme
suit :
rXY =
[2.2]
Proprits du rXY
Commentaires
rXY = rYX
rXX = 1
Cov (k, X) = 0
rkX = 0
1 rXY 1
Note : Lorsque la liaison entre X et Y est non linaire mais monotone, le r XY ne devient pas hors de propos.
Seulement, dans ce cas despce, il donne des informations sur lexistence de la liaison, mais estime mal son
intensit. Noublions pas que le coefficient de corrlation linaire sert avant tout { caractriser une liaison
linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur sur lexistence et lintensit de la
relation entre variables considres.
16
= 0.
19
H1 : XY 0n
Note : Le coefficient de corrlation linaire entre deux variables quantitatives gaussiennes indpendantes
20
est nul, mais la rciproque nest pas toujours vraie. Donc r XY = 0 ne signifie pas toujours quil y a
indpendance entre X et Y. Cela peut tout simplement vouloir dire quil y a absence dune liaison
linaire entre les variables tudies.
Ceci dit, le calcul dun coefficient de corrlation doit toujours commencer par un examen graphique.
Lautre faiblesse majeure du coefficient de Bravais Pearson est dtre trs sensible aux points aberrants.
[2.3]
o Di = Ri - Si et n = nombre dobservations
Avantages du XY de Spearman sur le rXY de Bravais Pearson
Le rXY de Bravais - Pearson
Le XY de Spearman
A propos de la normalit
Pour calculer rXY, les variables doivent tre Le XY lve lhypothse de normalit. De plus, dans
gaussiennes.
le cas des variables distribues normalement, le XY
reste adapt car il fournit les mmes rsultats que
le rXY de Bravais Pearson.
Concernant une liaison non linaire monotone
Le rXY donne une ide sur le sens de la liaison mais Dans ce cas, le XY est appropri, il estime mieux
estime mal sa force.
que le rXY ce type de liaison.
La prsence des points atypiques
Le rXY est fortement influenc par la prsence des Le XY rsiste aux points aberrants. Dans ce cas, il
dviants [points aberrants].
est donc prfr au rXY.
Note : Lorsque la liaison entre les deux variables tudies est non linaire et non monotone, les deux
coefficients rXY et XY ne sont plus adapts. On peut soit transformer les donnes avant de les
calculer ou carrment, lorsquon dispose de plusieurs valeurs de Y pour chaque valeur de X ou
linverse, calculer le rapport de corrlation.
La dmarche du test statistique sur le XY de Spearman est la mme que celle sur le coefficient de
corrlation de Bravais Pearson.
Remarques importantes sur le calcul du XY de Spearman
Le calcul du coefficient de corrlation de Spearman exige que les donnes soient remplaces par leurs
rangs. Et en prsence dex aequo dans les donnes, on leur affecte un rang moyen, donn par la moyenne
arithmtique de leurs rangs respectifs.
21
Mais lorsquon compte plusieurs ex aequo, aprs avoir remplac les donnes par leurs rangs, il est conseill
de faire subir au coefficient de Spearman quelques corrections ou simplement de lui prfrer le coefficient
de Bravais-Pearson, mais calcul sur les rangs. Dans ce recueil, nous optons pour cette dernire option.
En rsum, lestimation dun coefficient de corrlation suivra toujours [sauf indication contraire], dans
lordre, les cinq tapes suivantes :
(i)
(ii)
(iii)
(iv)
(v)
Normalit
linaire
Variables normales
linaire
- Coefficient XY de Spearman
La mesure ne concerne quune relation linaire. Le coefficient de corrlation linaire sert avant
tout { caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur,
surtout sur lintensit de la liaison entre variables considres.
La mesure ne concerne que les variables quantitatives. En prsence des variables qualitatives
comme la paix, la religion, , les deux coefficients prsents ci-haut ne sont plus adapts.
La corrlation nest ni impact ni causalit. Lobjet de la corrlation nest pas dtablir une causalit
mais simplement de rendre compte du sens et du degr dassociation ventuelle entre variables.
La corrlation peut tre fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une
corrlation leve ne peut tenir qu{ un facteur confondant ou artefact. En ralit, les deux
variables peuvent simplement tre lis un mme phnomne - source : une troisime variable
dont il faut neutraliser leffet.
Les alternatives face ces faiblesses sont notamment la corrlation pour variables qualitatives, le
coefficient de corrlation partiel, le rapport de corrlation, la rgression linaire et non linaire, la causalit,
la cointgration, etc.
22
20
40
30
35
15
40
6
4
2
0
0
10
20
30
40
50
X(i)
ai
20
-15
225
0,5739
35
20,0865
-15
225
0,3291
35
11,5185
-15
225
0,2141
30
6,423
40
-15
225
0,1224
25
3,06
30
15
-5
25
0,0399
0,1995
35
20
30
10
100
35
15
225
15
40
20
400
10 40
40
20
400
=20 ; n=10 ; =5
2050
41,2875
W=
= 0.83154032
Wtable =0.842 [ 5%, pour n=10]
Puisque W<Wtable, RH0. La variable X est non
gaussienne.
23
y(i)
ai
-4
16
0,574
4,5912
-3
0,329
1,9746
-3
0,214
1,2846
-2
0,122
0,4896
0,04
10
16
0
5 ; n=10 ; =5
8,34
W=
= 0.915205263
Wtable =0.842 [ 5%, pour n=10]
Puisque W>Wtable, Non RH0. La variable Y est
gaussienne.
76
Rang de X [Ri]
Rang de Y [Si]
Di = R i - Si
Di2
20
5,5
0,5
0,25
2,5
1,5
2,25
2,5
2,5
40
9,5
2,5
6,25
30
8,5
-1,5
2,25
35
10
-2
2,5
-1,5
2,25
2,5
2,5
15
5,5
-0,5
0,25
40
9,5
8,5
18,5
XY = 1
= 0. 887878788
Note : Deux nombres au moins identiques ont mme rang qui est donn par la moyenne arithmtique de leurs rangs
respectifs.
24
Exercice 2
Montrer rigoureusement que par construction le coefficient de corrlation linaire est toujours comprise
entre - 1 et 1 [Utiliser la formule de Bravais Pearson].
Solution de lexercice 2
Si le lien linaire entre X et Y est parfait, Y (X) scrirait comme une fonction affine de X (Y) :
Y = + X
Dune part, on aura :
Y = X
Dune part, on aura :
= [X E(X)]
= [X E(X)]
= Var(X)
Dautre part, on a ceci :
= Var(X)
Dautre part, on a ceci :
rXY =
rXY =
=1
Exercice 3
Le tableau ci-aprs renseigne sur lvolution de loffre de jus de banane (X) et son prix en USD (Y).
N
10
11
10
11
14
12
Travail faire :
- Calculer le coefficient de corrlation appropri.
- Tester sa significativit statistique
- Evaluer sa signification clinique
Solution de lexercice 3
1. Test de linarit
10
8
6
4
2
0
0
10
15
=1
25
2. Test de normalit
Test sur la variable X
i
ai
10
-4,5454545
20,661157
0,5601
10
5,601
-3,5454545
12,5702479
0,3315
2,3205
-2,5454545
6,47933884
0,226
1,13
11
-1,5454545
2,38842975
0,1429
0,4287
14
-0,5454545
0,29752066
0,0695
0,0695
-0,5454545
0,29752066
0,4545455
0,20661157
W=
12
10
1,4545455
2,11570248
Wtable=0,850
11
2,4545455
6,02479339
10
12
3,4545455
11,9338843
11
14
5,4545455
29,7520661
92,7272727
= 5,5
9,5497
= 0,983494579
= 8,545454545 ; n =11 ;
-1,818181818
3,30578512
0,5601
2,2404
-0,818181818
0,66942149
0,3315
0,663
-0,818181818
0,66942149
0,226
0,452
-0,818181818
0,66942149
0,1429
0,1429
-0,818181818
0,66942149
0,0695
0,0695
0,181818182
0,03305785
0,181818182
0,03305785
0,181818182
0,03305785
W=
1,181818182
1,39669421
Wtable=0,850
10
1,181818182
1,39669421
11
2,181818182
4,76033058
ai
0
13,6363636
= 6,818181818 ; n=11 ; = 5,5
3,5678
= 0,933474435
Le rXY de Bravais-Pearson
0,95870624
Corrlation entre X et Y
26
Le XY de Spearman
0,95227273
= 9.3589914, pour le
XY de Spearman.
Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262
Conclusion : le coefficient de corrlation calcul est statistiquement non nul.
5. Signification clinique
il existe bel et bien une corrlation linaire positive trs forte entre quantit offerte de jus de banane et son
prix, ce qui est conforme la moi de loffre.
Exercice 4
A partir dun chantillon de 27 objets, on a trouv que la valeur dun coefficient de corrlation linaire tait
0.4. Peut-on en conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre
significativement de la valeur zro ? Quadviendrait la rponse obtenue prcdemment si lon considre un
seuil de signification de 0.01.
Solution de lexercice 4
Lexercice livre les informations suivantes : rXY =0.4 ; n=27 ; = 0.05.
Aprs calcul, on a tcal=2.1821789. En considrant le seuil donn, = 0.05, et 25 degrs de libert, la
table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, un seuil de signification
de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro.
Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrlation devient non significatif.
Exercice 5
Soit le jeu de donnes normalement distribues ci-dessous.
Bloc I
Bloc II
Bloc III
Bloc IV
10
8,04
10
9,14
10
7,46
6,58
6,95
8,14
6,77
5,76
13
7,58
13
8,74
13
12,74
7,71
8,81
8,77
7,11
8,84
11
8,33
11
9,26
11
7,81
8,47
14
9,96
14
8,10
14
8,84
7,04
7,24
6,13
6,08
5,25
4,26
3,1
5,39
19
12,5
12
10,84
12
9,13
12
8,15
5,56
4,82
7,26
6,42
7,91
5,68
4,74
5,73
6,89
27
Solution de lexercice 5
(i)
rXY
(ii)
(iii)
Bloc II
0,81623651
Bloc III
0,81628674
Bloc IV
0,81652144
Pour les 4 blocs, on obtient pratiquement la mme valeur du coefficient de corrlation de BravaisPearson, soit rXY = 0.82. Ce qui semble traduire dans ces diffrents cas, lexistence dun lien linaire
positif trs fort.
Graphique nuage ds points pour chaque bloc
Bloc I
Bloc II
15
10
10
Bloc III
Bloc IV
15
15
10
10
5
5
0
0
0
10
20
0
0
10
20
10
15
0
0
10
La leon tirer est que lestimation du coefficient de corrlation de Pearson doit toujours saccompagner dun
examen graphique. Car, comme on le voit, le coefficient estim rXY = 0.82, ne correspond, en toute rigueur,
quau premier graphique. Le deuxime, par exemple, fait tat dune liaison fonctionnelle presque parfaite
entre X et Y dont le rXY semble sous-estimer lintensit. Quant au troisime et au quatrime graphiques, il y a un
point atypique qui fausse compltement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point
aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisime et quatrime graphiques, le
coefficient de corrlation de Pearson qui tait de r XY=0.82, devient respectivement de 0.99999655 et de 0
[puisque rkX=0].
(iv)
On remarquera quau bloc IV, la variable X prsente plusieurs ex aequo, nous avons donc calcul le
coefficient de Bravais-Pearson sur les rangs.
Coefficient de Bravais-Pearson calcul sur les rangs
Bloc IV
Lien entre X et Y
0.5
A comparer au coefficient de Pearson, le coefficient de rang prsente lavantage de rsister aux points
atypiques.
20
28
Exercice 6
Voici un chantillon de deux variables gaussiennes :
X
-2
-1
Travail faire :
- Estimez le coefficient de corrlation de Bravais - Pearson
- A quoi renvoie ce rsultat ?
- Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle
nuance pouvez-vous donc formuler dans ce cas ?
Solution de lexercice 6
- Les deux variables tant supposes gaussiennes par lexercice, et puisque le test de linarit ici ne fait pas un
pralable, on passe directement lestimation du rXY comme prsente dans le tableau ci-dessous :
Moyenne
Xi
Yi
-2
-2
-4
-1
-1
-1
-2
-1
-1
10
14
(Xi
(Yi )2
Somme
(Xi )(Yi
2
rXY = 0
-2
-1
Il ressort de ce diagramme de dispersion quil existe bel et bien une liaison [de type non linaire] entre les
variables X et Y.
La nuance faire, au vu de ces rsultats, est quun coefficient de corrlation de Bravais Pearson nul ne
devrait pas toujours sinterprter comme une absence de relation entre variables en cause. La meilleure
interprtation serait que les deux variables tudies sont non linairement corrles, car un r XY =0 laisse
toujours la possibilit dexistence, entre les variables considres, dune liaison dun autre type.
29
Exercice 7
A Washington, un journaliste a dcouvert quil existe une trs forte corrlation entre le fait davoir un nid de
cigognes sur sa demeure et le fait davoir des enfants. Do il conclut que les cigognes apportent les bbs.
Quelle remarque pouvez-vous faire une telle conclusion ?
Solution de lexercice 7
La remarque principale formuler ce type de corrlation que rien ne peut expliquer ou qui en ralit tient
un autre phnomne-source est que la corrlation peut tre fortuite ou artificielle. Par ailleurs, bien
analyser les choses, tenant compte des ralits de Washington, la prsence dun nid de cigognes sur le toit
signifierait plutt que la famille qui y habite est aise et donc dispose, financirement, avoir plus denfants.
Exercice 8
En rsolvant un TP de statistique 1 sur le calcul du coefficient de corrlation linaire, un tudiant de G1 FASE
fournit le tableau suivant :
Xi
Yi
Xi
80
32
-20
100
50
115
110
Yi
(Xi )*(Yi )
(Xi )
(Yi )
-18
360
400
324
62
15
12
180
225
144
56
10
60
100
36
70
-30
-42
1260
900
1764
125
80
25
30
750
625
900
105
62
12
72
36
144
90
50
-10
100
110
62
10
12
120
100
144
95
38
-5
1
-12
0
60
2862
25
2511
144
3600
=100
=50
rXY =
= 0.9519
Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez quil y a erreur de calcul. Par quoi la
voyez-vous ?
Solution de lexercice 8
Par la somme des carts de la variable X sa moyenne arithmtique. Cette somme est forcment gale zro,
une valeur diffrente indique tout simplement une erreur de calcul.
Exercice 9
Soient les donnes sur les variables X et Y reprises dans le tableau ci-aprs et le nuage de points
correspondant :
12
10
8
1,1
1,25
1,5
2,25
6,8
8,3
9,3
9,81
9,85
6
4
2
0
0,9
1,4
1,9
2,4
30
xy
Ri
Si
Di
Di
-0,52
-4,84
2,50
0,2669
23,46
1,1
6,8
-0,42
-1,04
0,43
0,1736
1,09
1,25
8,3
-0,27
0,46
-0,12
0,0711
0,21
1,5
9,3
-0,02
1,46
-0,02
0,0003
2,12
9,81
0,483
1,97
0,95
0,2336
3,87
2,25
9,85
0,733
2,01
1,47
0,5378
4,03
5,21
1,28
34,77
Moyenne
1,52
7,84
rXY = 0,78
XY = 1
Les calculs montrent simplement que le XY de Spearman est prfr au rXY de Bravais-Pearson lorsque la
liaison entre X et Y est non linaire mais monotone, car comme on le voit, le r XY a sous-estim lintensit
dune relation non linaire certes, mais visiblement parfaite entre X et Y.
Exercice 10
[Il y a au moins une rponse exacte, cocher, la question suivante].
Le coefficient de corrlation linaire entre deux variables statistiques :
(a) ne peut tre calcul que si les deux variables sont quantitatives
(b) est un nombre positif ou nul
(c) nest gal zro que lorsque les variables sont indpendantes
(d) est un nombre sans dimension.
31
.III.
Yt = 0 + 1Xt
o 0 et 1 sont les paramtres du modle qui permettent de caractriser la relation de dpendance linaire
qui existe chaque date t entre Xt et Yt.
Encadr 2. Fonction affine
Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b
*]
a : est lordonne { lorigine ou lorigine
b : est la pente de la droite ou le coefficient angulaire [directeur]
La fonction affine est appele aussi fonction linaire si a =0
Graphe dune fonction affine
[considrons le cas o a > 0 et b > 0]
La pente dune droite mesure la variation de Y quand
on se dplace le long de la droite en accroissant X
dune unit.
Y
Y = a + bX
E
b = tg () =
Y = Y1 Y0
D
a
X = X1 X0
Y Y0 = b (X X0)
0
b=
19
Algbriquement, la pente
drivant Y par rapport X :
ou
b=
sobtient
en
Cette information est gnralement fournie par la thorie conomique, ou peut simplement dcouler de lobjectif de
ltude du modlisateur.
32
Yt = 0 + 1Xt + ut
Dans ce cas de la rgression linaire simple 0 est le terme constant ou lorigine et 1 la pente.
Comme pour la corrlation, avant toute analyse, il intressant de toujours commencer par un examen
graphique travers un diagramme de dispersion du type de relation qui lie les deux variables
considres. Il faut noter, par ailleurs, que le raisonnement qui sera dvelopp dans la suite de ce chapitre,
ne peut sappliquer que si Y peut scrire comme une fonction affine de X.
Considrons le jeu de donnes ci-aprs o un chercheur veut expliquer lhabilit en lecture (Y) de dix sujets
chantillonns par le nombre dheures de lecture par semaine (X). Y est mesure en laboratoire { laide
dun test dhabilit en lecture alors que X est estim par les sujets eux-mmes.
Y
20
40
30
35
15
40
Ajuster un modle linaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il
sagit de faire un ajustement linaire, cest--dire de remplacer le nuage de points des couples (x i,
yi) par une droite qui sy adapte le mieux que possible.
Prdire les valeurs de Y pour les nouvelles valeurs de X.
50
50
40
40
30
30
20
20
10
10
et
0
0
10
10
Lajustement linaire [ou rgression linaire] consiste donc { tracer une droite dajustement appele
galement droite de rgression qui, sans passer par tous les points du nuage, sy approche le mieux. Pour
a, il faut donc un critre quantifiant la qualit de lajustement.
Le critre auquel on se rfre dans ce chapitre, et trs souvent en conomtrie, est le critre ou la mthode
des Moindres Carrs Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares]
pour dsigner la mme mthode.
20
Certains auteurs ironisent en disant que la mthode nous sert { mettre un chapeau sur nos .
33
Note : (i) Lorsque les hypothses H4, H5 et H6 sont ralises, on dit que les erreurs sont des bruits blancs.
Et lorsquon y ajoute lhypothse H7, on parle des bruits blancs gaussiens.
(ii) Lorsque toutes les hypothses sous-tendant la mthode des MCO sont remplies, le thorme de
Gauss Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], cest--dire quils
sont les meilleurs estimateurs linaires, non biaiss et variance minimale.
Xt, appele
=
=
La dtermination de
et
=0
[3.3]
=0
[3.4]
], elle
34
En appliquant ces drives partielles, on obtient les quations normales, partir desquelles sont tirs les
estimateurs des MCO :
Y = n
XY =
X +
[3.5]
X2
[3.6]
[3.7]
Aprs substitution de
[3.8]
[3.9]
[3.10]
:
( )=
=(
)+
=
Ce rsultat montre que lorsquon travaille sur les carts { la moyenne arithmtique [variables centres], on
reste sur la mme droite dajustement ce qui implique que la pente
les axes jusquau centre de gravit.
Y45
40
35
30
25
( , )
=20
15
10
5
0
0
=5
10
35
peut disparaitre
Xt devient
[3.11]
(Xt )
[3.12]
est gale
=
=
=
3me consquence : la somme et donc la moyenne arithmtique des rsidus est nulle dans une rgression
avec constante. En effet :
=
=n -n
-n
= n n(
)-n
=0
4me consquence : il existe un lien entre la pente dune rgression linaire simple
corrlation de Bravais Pearson rXY:
et le coefficient de
= rXY
Lcart type tant non ngatif, la pente
mme signe.
Variables centres
Xt
=
=
rXY connu
+
Xt
Connaissant lorigine
et le centre de gravit
Equations normales
Formules
Y = n
XY =
X +
Estimateurs
X
X2
21
= rXY
est la pente de la
droite, soit :
=
=
21
Lestimateur est une formule, et lestimation est la valeur quon trouve en appliquant lestimateur.
36
yt =
+ et
[3.13]
[3.14]
[3.15]
[3.16]
SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y.
SCE est la somme des carrs expliqus. Elle indique la variation de Y due sa rgression linaire sur X.
SCR est la somme des carrs rsiduels. Elle indique la variabilit de Y non explique par le modle.
[3.17]
Ainsi, le R peut tre interprt comme la proportion de variance de Y explique par le modle.
Toujours partir de la relation [3.15], on peut dduire les informations suivantes :
Au meilleur des cas
SCR = 0
SCT = SCE
2
R =1
Le modle est parfait, la droite de rgression passe
par tous les points du nuage.
Intervalle de variation du R
0R
2
Autres formules du R
= 1-
=
=
Avec
la pente de la droite de rgression de X sur
Y, soit = + Yt.
2
Plus le R est proche de 1, meilleur est lajustement, la connaissance des valeurs de X permet de
37
2
2
Pour une rgression linaire simple, et seulement dans ce cas, le R nest rien dautre que le carr du
coefficient de corrlation de Pearson. La dmonstration est relativement simple.
Partant de la relation
= rXY
=
=
=
2
=R
Par consquent rXY = signe ( )
Note : Comme le coefficient de corrlation linaire de Pearson, le R , pour une rgression linaire simple,
est symtrique.
22
23
Pour les dtails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010).
Appele souvent matrice COVA, note par la lettre Omega ().
38
H1 : i 0n
Il sagit dun test bilatral [two-tail ou two-sided]24. Il est bas sur la statistique t de Student calcule
comme suit :
=
[3.18]
[3.19]
On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n 2) degrs de libert.
Critre de dcision : Si
> t/2 ; (n 2) [valeur lue dans la table de Student], alors RH0, le paramtre
est
statistiquement non nul, la variable lui associe est par consquent non pertinente dans la prdiction de Y.
Intervalle de confiance des paramtres i
Le RH0 revient simplement { refuser que le paramtre i de la population est nul, cela ne signifie nullement
que serait la vraie valeur du paramtre i. Ainsi, on peut, en se basant sur les paramtres estims
assumant un risque donn, construire des intervalles de confiance pour les paramtres i.
et en
t/2 ; (n 2)
[3.20]
[3.21]
2
F=
[3.22]
Le test F teste statistiquement la raison dtre du modle. Par ailleurs, partant de la relation [3.22], daucuns
considrent quil teste la significativit du coefficient de dtermination.
24
39
Dans le cas dune rgression linaire simple, le test F est confondu au test de significativit individuelle de la
pente. Les deux tests sont bass sur les mmes hypothses, et on dmontre dans ce cas que :
F=
[3.23]
Preuve :
F=
H1 : 1 0n
Comme on le voit, valider la significativit de la pente revient, en mme temps, admettre la bont du
modle.
Sous H0, on dmontre que la statistique F suit une loi de Fisher respectivement 1 et (n-2) degrs de libert.
Critre de dcision : Si F > F [1 ; (n 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on
rejette H0, le modle est bon.
Significativit de la pente versus significativit du r XY de Bravais Pearson
Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient tester rXY = 0.
Cela implique quaccepter la significativit de la pente, cest accepter galement la significativit du
coefficient de corrlation linaire.
En effet, en considrant les relations [3.22] et [3.23], et en sachant que le R 2 correspond au carr du rXY, on
tablit :
=
25
Le test de significativit globale ne porte que sur les paramtres associs aux variables exognes.
40
La prvision ponctuelle est trs simple. Connaissant Xn+h, il suffit de substituer cette valeur dans
lquation estime pour obtenir la valeur correspondante de Y, soit :
=
Xn+h
[3.24]
Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ciaprs :
I=
Yn+h
t/2 ; (n 2)
[3.25]
[3.26]
L'estimateur de la variance de l'erreur et le Student thorique doivent tenir compte des degrs de libert,
cest--dire :
=
et
t/2 ; (n 1)
26
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
41
Revenu
8000
9000
9500
9500
9800
11000
12000
13000
15000
16000
Consommation
7389.99
8169.65
8831.71
8652.84
8788.08
9616.21
10593.45
11186.11
12758.09
13869.62
On cherche expliquer la consommation des mnages (C) par le revenu (R), soit :
Ct = + Rt + ut
Travail faire :
(i)
Tracer le nuage de points et commenter.
(ii)
(iii)
(iv)
(v)
(vi)
(vii)
(viii)
(ix)
(x)
(xi)
Solution de lexercice 1
(i)
5000
10000
15000
20000
42
Ce graphique tmoigne de lexistence dune association linaire positive, presque parfaite, entre la
consommation des mnages (Ct) par le revenu (Rt), ce qui autorise lestimation de la relation les liant par la
mthode des moindres ordinaires.
(ii)
= 0,78098
= 1176,0896 + 0,78098Xt.
(iii)
Voir tableau ci-dessous. Ces valeurs sont trouves en remplaant dans lquation de la droite des
moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur.
(iv)
, connaissant n =10 et
(voir
tableau), on obtient :
=
20646,1728
(vi) La pente ici est la propension marginale consommer, soit . Le test de significativit de ce
coefficient requiert son cart-type
. Connaissant la variance de lerreur, la variance de est calcule comme
suit :
Var ( ) =
= 0,0003
0,0179
= 43,5352
=
> ttable
la pente
t0.025 ; 8 = 2.306.
est statistiquement significative.
Lintervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramtre 1 est
construire comme suit :
I = [ (t0.025 ; 8)
;
+ (t0.025 ; 8) ]
0,8224]
Le coefficient de dtermination R2 peut tre calcul par la formule (les valeurs viennent du tableau
ci-dessous) :
(viii)
43
0,9958
F=
ensemble.
(ix)
(x) Nous savons que dans un modle linaire simple, accepter la significativit de la pente revient
accepter celle du coefficient de corrlation linaire. La pente
naturellement.
(xi) La prvision ponctuelle ne pose aucun problme. La prvision par intervalle requiert lestimation de
lcart-type de lerreur de prvision. Elle est donne par :
Yn+h
I=
(t0.025 ; 8)
o
=
En effectuant les remplacements ncessaires, au niveau de confiance de 95% (au seuil de 5%), on a les rsultats
suivants :
Prvision ponctuelle
2002
2003
[14105,2657 ; 14800,3269]
44
Anne
Yt
Xt
yt
xt
xtyt
1992
7389,99
8000
-2595,585
-3280
8513518,8
10758400
7423,9516
-33,9615958
1153,389989
6737061,4922
-2561,6234
6561914,4650
1993
8169,65
9000
-1815,925
-2280
4140309
5198400
8204,93434
-35,28434098
1244,984718
3297583,6056
-1780,6407
3170681,1566
1994
8831,71
9500
-1153,865
-1780
2053879,7
3168400
8595,42571
236,2842864
55830,26401
1331404,4382
-1390,1493
1932515,0386
1995
8652,84
9500
-1332,735
-1780
2372268,3
3168400
8595,42571
57,41428643
3296,400286
1776182,5802
-1390,1493
1932515,0386
1996
8788,08
9800
-1197,495
-1480
1772292,6
2190400
8829,72054
-41,64053713
1733,934332
1433994,2750
-1155,8545
1335999,5393
1997
9616,21
11000
-369,365
-280
103422,2
78400
9766,89983
-150,6898313
22707,42527
136430,5032
-218,6752
47818,8294
1998
10593,5
12000
607,875
720
437670
518400
10547,8826
45,56742347
2076,390081
369512,0156
562,3076
316189,8106
1999
11186,1
13000
1200,535
1720
2064920,2
2958400
11328,8653
-142,7553217
20379,08188
1441284,2862
1343,2903
1804428,8884
2000
12758,1
15000
2772,515
3720
10313755,8
13838400
12890,8308
-132,7408121
17620,12319
7686839,4252
2905,2558
8440511,3336
2001
13869,6
16000
3884,045
4720
18332692,4
22278400
13671,8136
197,8064427
39127,38879
15085805,5620
3686,2386
13588354,7011
50104729
64156000
165169,3825
39296098,1837
39130928,8011
n=10 ;
et
=9985,575
=11280
Exercice 2
Soit le modle linaire Yt = 0 + 1Xt + ut. O Yt reprsente la quantit offerte de pommes et Xt le prix.
On donne les informations suivantes : = 5 et =3.
Aprs estimation, on a la droite de rgression suivante :
Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de rgression, trouver
et
Solution de lexercice 2
Connaissant le couple (Y=2.5 ; X=2) et le centre de gravit du nuage de points ( = 5 ;
aprs :
Y
X
5
3
2.5
2
=3), on peut reproduire la droite des moindres carrs de cette estimation comme ci-
45
5,5
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0
et
= 2,5.
= 5 (2,5)3 = 2,5
= 2,5+ 2,5Xt
Exercice 3
Soit un modle linaire simple : Yt = 0 + 0Xt + ut
On donne les informations suivantes :
YX=184500 Y2=26350 X2=1400000
=60
=400
n=7
Travail demand :
-
Solution de lexercice 3
En fonction des donnes en prsence, les formules suivantes seront utilises pour rpondre aux trois questions
poses :
R2 =
F=
et
Le R2 tant relativement lev, environ 85%, lajustement effectu est de bonne qualit. Et puisque F > F
6,61, on en conclut que le modle est globalement bon.
[1 ; 5]
46
Exercice 4
Soit le modle : Yt= 0 + 1Xt + ut
Yt : salaire moyen horaire par jour [en USD]
Xt : nombre dannes dtudes
On donne par ailleurs les informations suivantes : rXY= 0.951916 ; x=3.894440 et y=2.945636
Aprs estimation, sur base dun chantillon de 13 observations, un tudiant de L1 FBA prsente les rsultats
incomplets ci-aprs :
= 0.030769 + .. Xt
Travail demand :
(i)
(ii)
(iii)
(iv)
(v)
Solution de lexercice 4
(i)
= rXY
, ce qui donne, en
remplaant :
=0, 7200. On a ainsi :
= 0,030769 + 0, 7200 Xt
(ii)
Le t calcul pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on
conclut que le rXY est statistiquement non nul.
(iii)
Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre dannes dtudes. En
effet, ces rsultats semblent logiques car il est tout fait normal que ceux qui beaucoup tudi gagnent un peu
plus que ceux qui ont tudi un peu moins.
(iv)
On sait que, pour un modle de rgression linaire simple avec terme constant, le R 2 nest rien
dautre que le carr du coefficient de corrlation de Bravais Pearson. Ainsi :
R2 = (0, 951916)2 = 0,9061
(v)
Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modle linaire
simple, le F nest rien dautre que le carr du t de Student associ la pente. Le t de Student de la pente est
donc obtenu en prenant la racine carr de F, soit :
10,3054 > t0.025 ; 11 = 2,201
En conclusion, la pente est statistiquement significative et le modle est valable dans lensemble.
47
Exercice 5
Le tableau suivant donne lge et la tension artrielle Y de 12 femmes :
Individu
Age (X)
Tension artrielle (Y)
1
56
136
2
42
132
3
72
136
4
36
130
5
63
138
6
47
132
7
55
136
8
49
130
9
38
142
10
42
134
11
68
136
12
60
140
Travail demand :
(i)
(ii)
(iii)
Solution de lexercice 5
Lquation de la droite de rgression de Y sur X est :
= 129,5193 + 0,1079Xt
(5,0449) (0,0942)
(.) : cart-type
La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student thorique, au seuil de 5% et
10 degrs de libert est ttable = 2,228. Do la pente est statistiquement nulle, ce qui signifie que lge nexplique
en rien la tension artrielle.
La tension artrielle dune femme ge de 50 ans est :
Exercice 6
Les donnes statistiques ci-dessous portent sur les poids respectifs des pres et de leur fils an.
Pre
Fils
65
68
63
66
67
68
64
65
68
69
62
66
70
68
66
65
68
71
67
67
69
68
71
70
Travail demand :
(i)
(ii)
(iii)
(iv)
Calculer la droite des moindres carrs du poids des fils en fonction du poids des pres.
Calculer la droite des moindres carrs du poids des pres en fonction du poids des fils.
Que vaut le produit des pentes des deux rgressions ?
Juger de la qualit des ajustements faits en (i) et (ii).
Solution de lexercice 6
Soient Y=Fils et X=Pre.
La droite des moindres carrs du poids des fils en fonction en fonction des pres, aprs estimation est :
= 35,8248031 + 0,47637795Xt
Et la droite des moindres carrs du poids des pres en fonction en fonction des fils, aprs estimation est :
= -3,37687366 + 1,03640257Xt
48
Le produit de deux pentes donne le R2 qui, comme le coefficient de corrlation linaire, est un indicateur
symtrique. On a ainsi :
R2 =0,47637795 * 1,03640257 = 0,49371933
Au regard de la valeur du R2 faible, environ 49%, les ajustements effectus en (i) et (ii) ne sont de bonne qualit.
Exercice 7
Cocher la bonne la rponse.
1. La droite des MCO dune rgression linaire simple avec constante passe-t-elle par le point ( , ) ?
A. Toujours
B. Jamais
C. Parfois
2. Pour une rgression linaire simple, le R2 est symtrique :
A. Oui
B. Non
C. Parfois
3. Pour une rgression linaire simple, le R2 correspond au carr du F de Fisher :
A. Oui
B. Non
Solution de lexercice 7
1 A ; 2A ; 3B.
Exercice 8
Soient les donnes suivantes :
= 114
= 36
= 226
= 702
Indication : n = 6.
Exercice 9
Soit le modle suivant sans terme constant : Yt = Xt + ut.
Trouver lestimateur
des MCO.
Solution de lexercice 9
En appliquant le critre des MCO, minimisation de la somme des erreurs quadratiques, cette relation, on
obtient :
49
Exercice 10
Soit les rsultats dune estimation conomtrique :
= - 32.95 + 1.251Xt
n = 20
R2 = 0.23
= 10.66
1)
A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme
des carrs des rsidus (SCR), la somme des carrs totaux (SCT), la somme des carrs expliqus
(SCE), la statistique F de Fisher et lcart-type de la pente.
2) La pente est-elle significativement suprieur 1 ?
Exercice 11
Montrer algbriquement que :
Exercice 12
Le tableau ci-aprs renseigne sur la quantit offerte dun bien (Y) et son prix (X)
N
Y
X
1
23
5
2
25
7
3
30
9
4
28
6
5
33
8
6
36
10
7
31
9
8
35
7
9
37
8
10
42
11
Travail faire :
(i)
(ii)
(iii)
(iv)
(v)
Exercice 13
Le coefficient de corrlation linaire entre deux variables X et Y est r = 0.60. Si les carts-type de X et Y sont
respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les quations de rgression
de Y en X et de X en Y.
50
.IV.
o chaque
est un coefficient marginal qui aprs estimation saisit, ceteris paribus, leffet dune
variation dun point de la variable exogne Xj sur la variable endogne ; t=1, , n correspond { la date des
observations.
Si lon considre plusieurs dates, la relation [4.1], sous forme matricielle, scrit :
o k est le nombre de variables explicatives, k+1 le nombre de paramtres que lon prendra lhabitude de
noter par K dans la suite de ce chapitre.
Sous forme compacte, on a :
[4.2]
Y = X + U
En principe, le critre des moindres carrs ordinaires, comme pour le modle simple, ne soulve aucune
difficult, la diffrence que pour le modle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan.
En algbre linaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace 3 dimensions, la
notion dhyperplan est confondue avec celle de plan, mais cela nest plus vrai quand on dpasse 3 dimensions.
51
Hypothses de base
La mthode des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses stochastiques
H1. Les erreurs sont IID
Hypothses structurelles
(0,
). Cette hypothse implique que
les erreurs sont normalement distribues, non-autocorrles et
homoscdastiques.
Formellement, on a :
52
On retrouve ainsi les quations normales, vues au chapitre prcdent, pour un modle simple. Mais
pourquoi normales ? La rponse cette question est propose ci-aprs.
Dans le systme ci-haut, renvoyons tous les termes dans un membre, il vient :
Exprime sous forme vectorielle, la dernire quation scrit : Xe = 0. Un vecteur tel que e, orthogonal
tout vecteur de lhyperplan engendr par X, est dit normal { lhyperplan. Do le qualificatif "dquations
normales".
En pratique, lestimation ponctuelle par les MCO se fait en pr-multipliant chaque ct de la relation [4.8]
par
, ce qui permet dcrire******** :
[4.9]
********
)1.
53
, il vient :
Ainsi,
[4.10]
En passant lesprance mathmatique de , il ressort clairement que
[4.11]
E(
. Estimateurs convergents
Les variances des estimateurs OLS sont calcules comme suit.
Var( ) = E
Connaissant les relations [4.10] et [4.11], il vient :
54
Ainsi obtient-on :
[4.13]
Lorsque le nombre dobservations tend vers linfini, lexpression [4.13] ci-dessus tend vers zro. Par
consquent, lestimateur
est convergent. Toutefois, la condition suffisante serait que les variables
exognes ne tendent pas devenir colinaires lorsque n tend vers l'infini. De plus, selon le thorme de
Gauss-Markov, Var( ) Var(
que les MCO]
) [avec
La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimes de
],
o ut N(0,
1re consquence : Sous lhypothse de normalit des erreurs, non seulement que lestimateur des MCO est
BLUE par le thorme de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de lingalit de Cramer-Rao, borne infrieure pour tous les
estimateurs.
2re consquence : Sous lhypothse de normalit, on obtient des tests exacts. Sachant que
, cela revient dire que lon connat les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits chantillons.
55
IV.3. R2 et R2 ajust
Connaissant lquation danalyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport :
[4.14]
Lorsque la rgression est faite sur donnes centres, le coefficient de dtermination se calcule avec la
formule :
[4.15]
Il faut noter que, comme pour le modle simple, le coefficient de dtermination reste un indicateur du
caractre explicatif de lquation de rgression { bien modliser Y t. Il mesure ainsi la part de variance de la
variable endogne attribuable sa rgression sur les X. Ceci est confirm par le fait que le coefficient de
dtermination nest rien dautre que le carr du coefficient de corrlation de Bravais-Pearson entre les
valeurs observes et les valeurs prdites de Y.
[4.16]
R2 =
56
Pour la comparaison des modles, on utilise aussi les critres dinformation [Aikak (AIC) ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la diffrence que ces critres sont minimiser dans le choix du meilleur modle.
57
La notion de corrlation partielle est importante dans la mesure o elle permet de juger de la pertinence
dintroduire une variable exogne dans le modle. Plus lev sera le coefficient de corrlation partielle
dune variable, plus importante sera sa contribution { lexplication globale du modle.
On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n K) degrs de libert.
Critre de dcision : Si
I=
t/2 ; (n 2)
58
[4.22]
F=
Sous H0, on dmontre que la statistique F suit une distribution de Fisher respectivement (K 1) et (n K)
degrs de libert.
Critre de dcision : Si F > F [(K 1) ; (n K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modle est bon.
Application de tests de significativit : Test des rendements dchelle
Soit le modle suivant :
[4.23]
Ln Qt = Ln A + 1Ln Lt + 2 Ln Kt + ut
1 + 2 = 1.
Estimer le modle [4.23] sans restriction sur les paramtres, dit modle non contraint ;
tcal =
), la formule [4.25]
tcal =
Tester enfin lhypothse des rendements dchelle constants contre celle des rendements
dchelle non constants, soit :
Critre de dcision : Si
> t/2 ; (n K)
59
Si le vecteur des valeurs des exognes pour un horizon h est connu, soit R=
la prvision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :
Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ci-aprs :
[4.30]
o
I=
t/2 ; (n K)
[4.31]
*********
Yn+h
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
60
Indications
Modle danalyse :
Ponctuelle
Estimation
Ii =
Par intervalle
t/2 ; (n 2)
Modle estim :
Matrice COVA
2
Donnes brutes
R2
R =
2
Donnes centres
tant connu
R2 =
R ajust de Theil
Test
de
significativit
individuelle
conjointe
t/2 ; (n K)
F=
[sous H0]
Si
F [(K 1) ; (n K)]
> t/2 ; (n K)
RH0
RH0
Ponctuelle
Yn+h
Prvision
I=
t/2 ; (n K)
Par intervalle
61
Une variable indicatrice est une variable spciale qui ne prend que deux valeurs, savoir :
Elle est utilise en conomtrie pour saisir les facteurs qualitatifs comme la race, le sexe, la religion ou
mme un vnement tel quune guerre, une grve, un tsunami, etc. que lon dsire intgrer dans les
modles. Comme variable explicative, on la note gnralement par la lettre D, pour dire dummy.
Il est galement important de noter que les variables binaires peuvent intervenir dans le modle de deux
manires, soit comme endogne [modle de probabilit linaire, modles Logit, Probit, Tobit, Gombit] soit
comme exogne [modles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intressons quau cas o la
variable muette entre comme explicative dans le modle.
Aussi, lutilisation de ces variables dpend fortement du problme pos. Comme exognes, les variables
dummy sont utilises pour rpondre un triple objectif :
11 fvrier
10
5
12 fvrier
12
7
13 fvrier
2
8
14 fvrier
15
9
15 fvrier
17
10
On observant lvolution de Yt, il y a un cart criant au 13 fvrier qui frappe notre attention. La consquence
directe serait que, sil faut rgresser Yt sur Xt, cette valeur aura tendance fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrs de faon avoir une moyenne.
On sen rend bien compte { travers le graphique nuage de points avec droite de rgression, y
correspondant, suivant.
62
20
15
10
5
0
0
10
12
11 fvrier
10
5
0
12 fvrier
12
7
0
[B]
13 fvrier
2
8
1
14 fvrier
15
9
0
15 fvrier
17
10
0
Aprs estimation, le signe affect { la variable binaire est proportionnelle { lanomalie constate
dans les donnes. Sil sagit dune observation anormalement basse, comme cest le cas dans
lexemple ci-haut, le signe affect la dummy sera , ce qui indique que lcart criant avait
tendance ramener la droite de rgression vers le bas. En revanche, sil est plut t question dune
observation anormalement leve, le signe affect la dummy sera +, ce qui indique que le dviant
avait tendance tirer la droite de rgression vers le haut.
Attention ne pas saisir les carts anormalement levs et anormalement bas par une mme une
variable muette. Lorsque la srie prsente la fois les deux types dcarts, il convient de les capter
par deux variables auxiliaires diffrentes, lune pour les observations exceptionnellement leves
et lautre pour celles exceptionnellement basses.
63
o REi =
Puis estimer, comme vu prcdemment, en appliquant les MCO. Aprs estimation, si 3 est statistiquement
significatif, on en conclurait que la religion (catholique) a jou sur la cotation en macroconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroconomie. A loppos, si 3 est
statistiquement non significatif, on en conclurait que la religion (catholique) na pas jou sur la russite en
macroconomie.
Note importante :
Dans le cas de variables dummy plusieurs modalits, par exemple ltat civil (clibataire, mari,
divorc, autres), il est convenable de coder alors autant de variables indicatrices quil y a de
modalits moins une. Ainsi, pour ltat civil, on dfinira trois variables binaires : clibataire (=1
si lindividu est clibataire, 0 sinon), mari (= 1 si lindividu est mari, 0 sinon), divorc (= 1 si
lindividu est divorc, 0 sinon), la modalit autres tant implicitement contenue dans le terme
constant [et ne serait donc spcifie part que dans un modle sans terme constant].
La codification dpend du modlisateur et doit tre prise en compte dans linterprtation des
rsultats. A titre exemplatif, si lon considre la variable qualitative sexe, le modlisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
linterprtation.
64
[i]
En utilisant les donnes trimestrielles, il ne serait pas correct destimer directement le modle [i], parce
quon naurait pas tenu compte de leffet saisonnier, les dpenses de publicit ne sont pas les mmes tous
les trois mois [trimestre].
On peut capter leffet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy quil y a de trimestres, soit quatre dummy. Sachant quon compte quatre
trimestres par anne, lintroduction des variables dummy se fera comme suit :
2
0
0
5
2
0
0
6
Trimestre
1r trimestre
2me trimestre
3me trimestre
4me trimestre
1r trimestre
2me trimestre
3me trimestre
4me trimestre
D1t
1
0
0
0
1
0
0
0
D2t
0
1
0
0
0
1
0
0
D3t
0
0
1
0
0
0
1
0
D4t
0
0
0
1
0
0
0
1
1
1
1
1
1
1
1
1
[ii]
ou encore :
Cht = 1Dpubt + 2D1t + 3D2t + 4D3t + 5D4t + ut
[iii]
Si le modle contient un terme constant, celui-ci joue doffice le r le de lune de quatre variables dummy.
Dans [ii] par exemple, 0 joue le rle de D4t [on a le choix pour la variable binaire carter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.
Une fois cette gymnastique termine, on peut alors, sans difficult normalement, appliquer les MCO soit
sur le modle [ii], soit sur le modle [iii].
65
ANNEXES DU CHAPITRE IV
ANNEXE 1 : Quelques rappels de calcul matriciel
Le calcul matriciel a t introduit en Economtrie par Alexander Craig Aitken.
1.
Oprations matricielles
Addition et soustraction
Soient deux matrices carres A et B de format 2. La somme ou la soustraction de ces deux matrices
seffectue comme suit :
B=
L'addition et la soustraction des matrices ne sont donc dfinies que pour des matrices de mme format ou de
mme ordre.
Proprits importantes de laddition et la soustraction des matrices
(i)
(ii)
A
A
B=B A
(B C) = (A
B)
kA =k
La multiplication par un scalaire est donc possible quel que soit lordre de la matrice A.
Proprits importantes de la multiplication par un scalaire
(i)
(ii)
kA = Ak
k(A B) = kA
kB
Produit matriciel
Soient les deux matrices carres A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la premire matrice est gal au nombre de lignes
de la deuxime matrice [principe du produit matriciel]. Le produit matriciel seffectue en faisant la somme
algbrique des produits des lments de chaque ligne de la premire matrice par les lments
correspondants de chaque colonne de la deuxime matrice.
Une matrice carre est une matrice dont le nombre de lignes est gal au nombre de colonnes. On dit matrice
carre de format n ou dordre n m.
66
AB =
2
A(B + C) = AB + AC
A(BC) = (AB)C
AB BA en gnral
m obtenue
AT =
Soit A =
(A + B + C)T = AT + BT + CT
(ABC)T = CTBTAT
(AT)T = A
(kA)T = kAT
67
2. Matrices carres
Matrice diagonale
Matrice scalaire
Exemple :
Exemple :
Exemple :
B=
I=
A=
Matrice symtrique
Matrice idempotente
Exemples :
Exemple :
M = [I X(X'X)1X']
II = I
InAn = An
tr (In) = n
68
Dordre 3
Le dterminant dune matrice carre A dordre 3 est calcul en appliquant la rgle de Sarrus********** comme
suit :
Dordre n quelconque
Le dterminant dune matrice A dordre n est donn par la somme algbrique des produits obtenus en
multipliant les lments dune ligne (ou dune colonne) de la matrice A par leurs cofacteurs correspondants,
nots Cij.
La matrice des cofacteurs, quant elle, est trouve en pr multipliant la matrice des mineurs, note Mij,
par (1)i+j, soit :
Cij = (1)i+jMij
La mthode des cofacteurs, dite aussi mthode dexpansion de LAPLACE , permet de calculer un
dterminant dordre n { laide des mineurs [dterminants dordre (n 1)]. On a toujours intrt
dvelopper un dterminant des lignes ou des colonnes o apparaissent beaucoup de zros.
Note : Le mineur mij de la matrice A est le dterminant calcul en supprimant la ligne i et la colonne j de A.
Proprits importantes des dterminants
(i)
(ii)
(iii)
(iv)
Si une ou plusieurs lignes ou colonnes dune matrice sont linairement dpendantes, alors le
dterminant de cette matrice est nul. On dit quune telle matrice est singulire.
Si une matrice carre A est de rang maximum, alors son dterminant est diffrent de zro.
L'inverse de A, not A , n'existe que si A est une matrice carre de rang maximum. Cet inverse est unique.
**********
69
Il existe, dans la littrature, plusieurs mthodes de calcul de linverse dune matrice carre. Dans ce papier, nous
nen prsentons que deux.
Mthode classique (ou mthode de ladjointe)
Par la mthode de ladjointe, linverse de la matrice B, Soit la matrice A, dordre n, dont on veut trouver
note B1, se calcule de la sorte :
linverse. La mthode itrative consiste { mettre c te
cte la matrice A et la matrice unit I de mme
1
ordre, puis { chelonner A jusqu{ la rendre unit. A1
B =
sera ce que serait devenue la matrice unit { lissue de
o est la matrice adjointe, et nest rien dautre que la
lchelonnement, soit :
transpose de la matrice des cofacteurs Cij, soit :
B1 =
B B1 = I
(B1)1 = B
(BT)1 = (B1)T
(B1)TBT = I
70
Coefficient
Std. Error
t-Statistic
Prob.
-247.3274
1.133525
2.944909
7.146491
122.8357
0.520299
3.361460
2.286172
-2.013481
2.178604
0.876080
3.125963
0.1143
0.0949
0.4304
0.0353
0.974926
0.956120
8.789365
309.0117
-25.96726
51.84210
0.001169
264.3750
41.95895
7.491815
7.531536
7.223914
1.160052
71
Le mme rsultat peut tre obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.
Du tableau des rsultats ci-dessus, appels parfois output de lestimation, il ressort les informations
importantes suivantes :
Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramtre estim, son cart type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estim, la probabilit de commettre lerreur de
premire espce. Si cette probabilit est faible (< 0.05, de manire gnrale) RH0, le paramtre
concern est donc statistiquement significatif (non nul).
Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(Fstatistic) correspondent respectivement au R2, au R2 ajust, au , la SCR, la statistique de
Fisher et la probabilit critique associe la statistique de Fisher.
Mean dependent var et S.D. dependent var reprsentent respectivement la moyenne et lcart
type de la variable dpendante.
Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critres dinformation
intervenant dans le choix du modle optimal. Le meilleur modle tant celui qui minimise ces
critres.
A. Aprs estimation, la srie prdite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la srie) puis valider.
B. Aprs estimation, la srie des rsidus est gnre en saisissant la commande GENR (nom)=resid
72
=73.48 et = 1.6
(a) Calculer la somme des carrs expliqus (SCE), la somme des carrs totale (SCT), le R2 et le R2 ajust
de Theil.
(b) Dduire la matrice COVA, et tester la significativit individuelle de chaque paramtre ainsi que leur
significativit conjointe.
Exercice 2
Afin de dterminer les facteurs explicatifs de la russite de la licence en sciences conomiques, on spcifie
le modle suivant :
NLi = 0 + 1NDi + 2DSi + ut
o :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisime graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)
Lestimation { partir dun chantillon de 60 tudiants conduit aux rsultats suivants :
= 8.5 + 0.3NDi 1.2DSi
[4.5] [7.1]
[2.3]
n=60
R2=0.72
[.] = t de Student
Travail demand : le sexe a-t-il une influence sur la note obtenue en licence de sciences conomiques ?
Solution de lexercice 2
La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait dtre homme ou femme est bel et bien un facteur discriminant de la russite de la licence en sciences
conomiques.
73
Il est noter que le signe ngatif affect DS indique quil est pnalisant dtre un homme (DS = 1) et quen
moyenne, sur lchantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
infrieure de 1.2 point celle des femmes, soit 7.3.
Exercice 3
Soit le modle :
Yi = 0 + 1Xi + 2Di1 + 2Di2 + ui
o Yi est le salaire peru par lindividu i ; Xi le nombre dannes dexprience ; Di1 et Di2 deux variables
dummy.
On dispose du tableau ci-dessous :
Ind.
Yi
Xi
1
350
2
2
150
1
3
305
2
4
290
2
5
310
2
6
270
2
7
340
5
8
400
3
9
430
5
10
410
4
11
400
3
12
290
2
Les individus 3, 5, 8, 10, 15, 12 sont des trangers (trangres) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et trangers).
Di1 =
et
Di2 =
Exercice 4
Soit le modle :
Yt = 0 + 1X1t + 2X2t + ut
On dispose des donnes du tableau ci-dessous :
Yt
10
12
16
18
20
X1t
4
6
5
8
7
X2t
7
4
8
6
9
Travail faire :
(a) Trouver les valeurs du vecteur .
(b) Calculer le coefficient de dtermination R2.
(c) Mener les tests de significativit individuelle sur chaque
paramtre.
Exercice 5
Soit le tableau suivant :
Anne
Yt
X1t
X2t
X3t
1989
220
57
51
34
1990
215
43
53
36
1991
250
63
54
39
1992
245
65
52
38
1993
249
68
53
37
1994
301
69
56
42
74
TD :
-
Si on considre le modle suivant : Yt = 0 + 1X1t + 2X2t + 3X3t + ut, estimer les paramtres 0, 1, 2,
3, et tester leur significativit individuelle et la significativit globale du modle.
Calculer le R2. Quelle critique peut-on formuler lgard de cet indicateur ?
Calculer le 2
Trouver lintervalle de prvision pour 1997 sachant que pour cette dernire anne X1t sera gal
78, X2t sera gal 54 et X3t atteindra 48.
Exercice 6
Soit le modle Yt = 0 + 1X1t + 2X2t + t
o Yt est la quantit offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accorde de
manire journalire et t le terme derreur.
Connaissant les donnes du tableau ci-dessous, il est demand :
- destimer les paramtres 0, 1 et 2.
- de calculer le R2 et le R2 ajust de Theil.
- de montrer que le R2 nest autre que le r de Bravais-Pearson entre Yt et
- de vrifier lquation danalyse de la variance.
- de driver la matrice COVA.
Date
2 janvier 2012
3 janvier 2012
4 janvier 2012
5 janvier 2012
6 janvier 2012
Yt
10
12
16
18
20
X1t
4
6
5
8
7
X2t
7
4
8
6
9
75
.V.
Pour la premire famille de ces modles, le plus souvent, une transformation logarithmique suffit les
rendre linaires, ce qui, du reste, valide leur estimation par les MCO. Et cest prcisment sur ce type de
modles que porte ce chapitre. Quant { la deuxime famille de ces modles, il convient dappliquer les
mthodes destimation non linaire, que nous nabordons pas directement ici.
A titre davertissement, le prsent chapitre na pour objet la prsentation de nouvelles mthodes
destimation. Il prsente plut t les artifices de calcul entendus comme pralables ncessaires
lestimation, par les MCO, de la premire famille de modles non linaires.
[a]
A prsent, en posant :
= LnYt ; 0 = LnA; 1 = et
=LnXt,
+ ut
[c]
Q =AKL.
Forme : Yt =
[m]
[n]
Exemple :
La formule de lintrt compos Yt = Y0(1 + r)t [o]
o Y0 est une constante, (1 + r) un paramtre et t le temps
(la variable exogne).
o =
=
+
= LnYt,
+ ut
=LnY0,
=Ln(1 + r),
[p]
= t.
La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a t propose en
1928 ; alors que la CES, appele aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a t introduite en 1961.
76
Forme : = 0 + 1t+ ut
= LnYt et t =tendance ou trend
Forme :
[i]
Yt = 0 + 1LnXt+ ut
[ii]
o 1 est une semi-lasticit, soit :
1 =
[iii]
[iv]
Si lon pose
=LnXt, la relation [ii] est ramene la
formulation standard antrieure comme suit :
Yt = 0 +
+ ut
[v]
Avantage :
Ce modle permet lestimation des modles
dEngle : La dpense totale consacre la
nourriture tend crotre selon une progression
arithmtique lorsque la dpense totale augmente
en progression gomtrique.
Cette forme peut servir galement au traitement
de lhtroscdasticit dont il sera question plus
loin.
+ ut
+ ut
[k]
= 0 + 1Xt + ut
Forme : Yt =
En appliquant la transformation logarithmique sur cette
forme, on obtient :
LnYt = 0 + 1
[l]
En posant
En posant
= , il vient :
= 0 + 1Xt+ ut
+ ut
et
=LnYt, on obtient :
= 0 + 1
[m]
+ ut
G. Le modle polynomial
Forme : Yt =
Une manipulation simple permet dcrire ce modle sous la forme :
77
Yt =
o
=Xt ;
;;
A. Le modle logistique
B. Le modle de Gompertz
Forme :
[e]
o Ymax reprsente le seuil de saturation et r la
vitesse de diffusion.
Une manipulation triviale permet dcrire :
Forme : Yt =
o
[x]
Deux
transformations
logarithmiques
sont
ncessaires pour linariser ce type de modles.
Dans un premier temps, la transformation
logarithmique du modle [x] donne :
Aprs
application
de
logarithmique, il vient :
la
transformation
LnYt = brt + a
Aprs manipulation et en log-linarisant, il vient :
= 0 + 1t+ ut
[f]
= 0 + 1t+ ut
[y]
o
; 0 =Lnb et 1=Lnr
Note : Lestimation par OLS de ces deux modles nest possible que si lon ne connat, ou plut t que lon
postule la valeur du seuil de saturation.
o
; 0 =Lnb et 1=Lnr
78
ANNEXE DU CHAPITRE V
La commande NLS dEviews
En effet, plusieurs modles non linaires se prtent facilement, comme vu prcdemment, la linarisation,
ce qui rend beaucoup plus aise leur estimation par la mthode des MCO. Mais lorsque cette gymnastique
de linarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grce { la commande NLS dEviews qui donne lestimation fournie par la mthode des moindres non
linaires , directement estimer de tels modles sans avoir besoin de les rendre linaires.
Exemple
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour
Q
K
L
1
25
12
3
2
28
13
5
3
32
10
9
4
35
15
8
5
39
22
12
6
37
17
13
7
44
21
10
8
40
23
11
9
38
25
14
10
45
20
19
Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les rsultats suivants :
Dependent Variable: Q
Method: Least Squares
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)
C(1)
C(2)
C(3)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
12.45037
0.190189
0.232165
3.586039
0.125849
0.078957
3.471900
1.511251
2.940398
0.0104
0.1745
0.0217
0.823231
0.772726
3.081806
66.48269
-23.66117
36.30000
6.464433
5.332234
5.423009
2.381746
o les coefficient c(2) et c(3) donnent directement les lasticits du produit au capital et au travail,
respectivement.
79
Exercice 2
On dispose des informations suivantes sur les ventes des syllabus dconomtrie :
Anne
Ventes
2000
24
2001
36
2002
45
2003
49
2004
54
2005
63
2006
78
2007
79
2008
83
2009
99
On Se propose dajuster, par OLS, sur ces donnes une fonction du type :
Yt =
a) Effectuer cet ajustement en supposant que la valeur du coefficient 0 = 3 ;
b) Donner la valeur de r ;
c) Calculer le coefficient de dtermination R2 ;
Exercice 3
Mmes donnes et mmes questions qu{ lexercice 2, en ajustant le modle suivant :
Exercice 4
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour
Q
K
L
-
1
25
12
3
2
28
13
5
3
32
10
9
4
35
15
8
5
39
22
12
6
37
17
13
Calculer le R2 et le 2.
Mener le test des rendements dchelle. Les rendements { lchelle sont-ils constants ?
80
.VI.
En prsence dautocorrlation
Y = X + U
E(U) = 0
E(UU) =
Par consquent
les t de Student et F de Fisher ne sont plus
utilisables.
Il faut noter aussi que lautocorrlation des erreurs est un phnomne que lon ne retrouve quen travaillant
sur sries temporelles. En principe, le problme ne se pose pas sur cross sections, sauf le cas rare de
corrlation spatiale des rsidus, qui ne nous intresse pas directement ici.
B. Tests de dtection
On recourt gnralement { deux tests pour dtecter lventuelle autocorrlation des erreurs : le test de
Durbin et Watson et le LM Test de Breush Godfrey.
Le test de Durbin et Watson
Soit le modle linaire simple ci-aprs :
[6.1]
Yt = 0 + 1Xt + ut
Le test trs populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui lon propos en 1951, permet de dtecter une autocorrlation dordre 1, AR(1), selon la forme :
[6.2]
ut = ut1 + vt
o vt est un bruit blanc*********** et
(condition de convergence)
Erreurs homoscdastiques, non autocorrles et normalement distribues. De plus la matrice (XX) doit tre
non singulire, ce qui correspond { assumer labsence de multicolinarit.
***********
Voir annexe 3.
81
On fait donc lhypothse, pour des raisons de simplification, que lerreur nest lie qu{ son pass immdiat.
Et lestimateur de , bas sur les rsidus et issus de la relation [6.2], est donn par :
[6.3]
Or, si n
+,
DW = d =
Pour comprendre pourquoi d est une statistique pertinente pour tester lautocorrlation, on rcrit d
comme suit :
d=
En clatant cette somme en ses composantes, on a :
[6.6]
d=
DW=d
, [6.5] devient :
Valeur consquente de DW
DW =0
DW=2
DW = 4
Implications
Autocorrlation positive
Absence dautocorrlation
Autocorrlation ngative
Connaissant la taille de lchantillon n, le nombre des variables explicatives k et le risque (5% sauf
indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de
mener le test en situant la statistique calcule DW dans lune des zones du schma ci-aprs :
4 dU
4 dL
Doute
Zone I
Autocorrlation
positive
dU
Doute
dL
Zone II
Absence dautocorrlation
82
Zone III
Autocorrlation
positive
On dira donc quil y a autocorrlation des erreurs (ou prsomption dautocorrlation zone de doute ou
zone dindtermination) si la statistique DW calcule tombe soit dans la zone I, dans lune de deux zones de
doute ou dans la zone III. La zone II tant la seule zone o lon conclurait { lindpendance des erreurs.
Note importante :
ut = 1ut1 + 2ut2 + vt
AR(3) :
AR(P) :
A cet effet, Trevor Breusch et Leslie Godfrey ont, sparment, propos, respectivement en 1979 et 1978, un
test qui porte leurs noms, appel aussi test du multiplicateur de Lagrange LM beaucoup plus complet
que le test DW en ce quil permet de tester une autocorrlation des erreurs dordre suprieur { 1, et qui
reste valide en prsence de la variable dpendante dcale en tant que variable explicative.
Soit le modle linaire simple de lquation [6.1] :
Yt = 0 + 1Xt + ut
o ut est prsent AR(p), p tant dterminer.
Comme le test DW, le test BG teste lH0 dabsence dautocorrlation contre H1 de prsence
dautocorrlation, et se droule en trois tapes suivantes :
(1). Estimer par les MCO le modle [6.8] et tirer les rsidus e t de cette estimation ;
(2). Estimer par les MCO lquation intermdiaire suivante :
[6.8]
83
(3). Calculer la statistique du test, sachant que ce test peut tre men deux niveaux :
F
o K est le nombre des paramtres du modle [6.8]
Critre de dcision : Si F > F [(K 1) ; (n K)]
RH0, il y a autocorrlation.
(p)
RH0, il y a autocorrlation.
Yt = 0 + 1Xt + ut
o ut = ut 1 + vt
Yt = 0 + 1Xt + ut 1 + vt
o ut 1= Yt 1 0 1Xt 1
= 0 + 1 + v t
=Yt Yt 1 ; 0 = 0(1 ) ; 1 = 1 et
= (Xt Xt 1)
84
Lorsque connu, lapplication des MCO sur ce dernier modle donne un estimateur BLUE. Le seul
inconvnient de la transformation en quasi-diffrences qui persisterait serait une perte dinformation, en
loccurrence
et . Afin de contourner cette difficult, Prais et Winsten (1954) ont propos de prendre
en compte la premire observation en utilisant la procdure suivante :
et
Procdures destimation de
Il existe plusieurs mthodes pour estimer , dont les plus populaires sont :
pour
grands
o est le coefficient de
corrlation linaire.
(ii)
(iii)
(iv)
(v)
85
Note : Le logiciel Eviews permet automatiquement deffectuer la correction de lautocorrlation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement dinsrer, la commande
destimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter galement que la
correction de lautocorrlation nest accepte que si le coefficient associ au processus introduit dans le
modle [AR(1), MA(1), etc.] est significatif.
VI.2. Htroscdasticit
A. Problme
Dun point de vue tymologique, le terme htroscdasticit comprend deux mots. Dabord htro qui
fait rfrence plusieurs , ensuite le terme scdasticit , associ la fonction scdastique , qui
signifie variance conditionnelle . Htroscdasticit signifie donc diffrentes variances. On dit quil y a
htroscdasticit lorsque lhypothse de la constance de lerreur
, mise lors de la
prsentation de la mthode des moindres carrs ordinaires, est viole.
Comme pour lautocorrlation, la consquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaiss, ne sont plus efficients, puisque nayant plus une variance minimale. Et par
consquent les t de Student et F de Fisher ne sont plus utilisables { des fins dinfrence.
Il faut noter galement que lhtroscdasticit est un problme qui se pose plus dans les modles spcifis
en coupe transversale que ceux des chroniques.
B. Tests de dtection
Il existe toute une batterie de tests permettant de dtecter l htroscdasticit, dont notamment :
Le test de Park
Le test de Goldfeld Quandt
Le test de Glejser
Le test de Breusch Pagan Godfrey
Le test dgalit des variances
Le test de Koenker Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH
Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utiliss dans la pratique.
Le test de White (1980)
Soit le modle linaire multiple suivant :
[6.13]
Le test de White, propos par Halbert White en 1980, teste les hypothses suivantes :
Jinvite le lecteur qui dsire prendre connaissance de tous ces tests consulter les manuels de Kintambo
(2004) et Bosonga (2010).
86
Le test de White prsente lavantage quil ne ncessite pas que lon spcifie les variables qui sont { la cause
de lhtroscdasticit.
Pour tester H0, ce test peut se faire de deux faons ci-aprs :
(i)
Test de White avec termes croiss, qui est bas sur lestimation du modle :
[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.
(ii)
Test de White sans termes croiss, bas sur lestimation du modle suivant :
[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.
(m)
RH0, il y a htroscdasticit.
Partant des rsidus et issus de lestimation du modle [6.13], la dtection de lhtroscdasticit par le test
ARCH se fait en rgressant le carr des rsidus et sur leurs dcalages puissance deux, soit :
[6.15]
Le test est fond soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :
LM = n R2
(m)
o m est le nombre de rgresseurs (exognes) prsents dans le modle [6.15].
Critre de dcision : Si LM >
(m)
RH0, il y a htroscdasticit.
87
C. Correction de lhtroscdasticit
Soit le modle :
Yi = 0 + 1Xi + ui
La correction de lhtroscdasticit se fait en appliquant les moindres carrs pondrs, cest--dire les
moindres carrs ordinaires sur lun des modles transforms ci-dessous :
(1)
si E(
(2)
si E(
(3)
si E(
VI.3. Multicolinarit
A. Problme
Il y a multicolinarit lorsque lhypothse de lorthogonalit des exognes ou encore de leur indpendance
linaire
est relche. Dans ce cas, la mthode des moindres carrs ordinaires est dfaillante et il
devient difficile disoler limpact individuel de chaque exogne sur lendogne.
On distingue gnralement deux types de multicolinarit : la multicolinarit parfaite ou exacte et la quasi
multicolinarit ou multicolinarit imparfaite.
En cas de multicolinarit parfaite, la matrice
est singulire, et par consquent son inverse (
)1
nexiste pas, ce qui rend la mthode OLS compltement dfaillante ; il est nest donc pas possible devant
une telle situation destimer les paramtres du modle.
Dans la pratique, cest plut t le cas de quasi multicolinarit qui est frquent. En effet, la multicolinarit
imparfaite correspond au cas o la matrice
est non singulire, mais son dterminant est proche de 0. La
consquence directe est quon aura des valeurs trs grandes dans la matrice inverse (
)1 qui, par la
mthode classique, est calcule comme suit :
[6.16]
Dans [6.16], si
(
0, la matrice (
)1 =
fait de la valeur leve des variances des coefficients estims, les rsultats de lestimation perdent en prcision,
cest--dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont levs.
Lautre problme pos par la multicolinarit est linstabilit de paramtre et leffet de masque qui rend difficile
la mise en vidence de la contribution individuelle de diffrentes variables explicatives sur lendogne.
Note : Si les problmes dautocorrlation des erreurs et dhtroscdasticit peuvent se poser quel que soit
le nombre dexognes intervenant dans le modle, le problme de multicolinarit, en revanche, na de
sens que dans un modle de rgression linaire multiple.
La notion de multicolinarit a t introduite, dans les annes 50, par Lawrence Klein.
88
B. Tests de dtection
Les tests de dtection de la multicolinarit les plus populaires sont le test de Klein et le test de Farrar et
Glauber.
Le test de Klein
Soit le modle :
89
D=
>
RH0.
C. Remdes la multicolinarit
Parmi les techniques permettant dliminer la multicolinarit, on peut citer :
Face ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spcification du modle,
liminer les sries explicatives susceptibles de reprsenter les mmes phnomnes et donc dtre corrles
entre elles, ceci afin dviter leffet masque ************.
(0,
************
Bourbonnais (2005).
90
o
En lestimant par OLS, on a obtenu
=0,52 et
d=DW=0,78.
a) Effectuer, au seuil de 5%, le test dhypothse 2=0.
b) Que faut-il penser de lhypothse de non autocorrlation des rsidus ?
Exercice 2
En cherchant { expliquer le phnomne russite en conomtrie, en 2012, lassistant Dandy Matata a
spcifi le modle suivant :
Yi = 0 + 1X1i + 2X2i + i
o Yi est la cote obtenue en conomtrie par ltudiant i ; X1i est la prsence au cours dconomtrie et X2i le
nombre dheures dtudes consacres { ce cours.
15 tudiants ont t chantillonns. Lestimation a permis de calculer la statistique DW = 0.4.
Tester lautocorrlation du premier ordre dans le modle spcifi par lassistant Matata.
Exercice 3
Soit lchantillon de taille n=5 :
Yt
8
2
6
0
4
Yt=20
X1t
3
1
3
1
2
X1t=10
X2t
6
2
6
2
4
X2t=20
Exercice 4
Au regard des rsultats ci-aprs, sur lestimation de lhypothse de Kuznet en RDC pour la priode allant de
1975 2011, quel problme, selon vous, sest pos dans lestimation de cette relation ? Par quoi le voyezvous ?
R2 ajust = 0.873561
t- statistic
0.784894
0.268563
- 0.772470
91
Probabilit critique
0.4417
0.7910
0.4489
F stat. = 114.9272
o IGI est le coefficient dingalit de GINI et PIBH le PIB rel par habitant.
Exercice 5
Le tableau ci-dessous reporte les rsultats du test de White, aprs estimation de la relation entre coefficient
dingalit de GINI (IGI) et le PIB rel par habitant (PIBH) en RDC.
White Heteroskedasticity Test:
F-statistic
Obs*R-squared
6.482164
Probability
0.004122
10.21371
Probability
0.006055
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/25/12 Time: 15:46
Sample: 1975 2011
Included observations: 37
Variable
Coefficient
Std. Error
t-Statistic
Prob.
-18.82177
41.99457
-0.448195
0.6569
LPIB
1.623484
3.731230
0.435107
0.6662
LPIB^2
-0.034949
0.082874
-0.421711
0.6759
R-squared
0.276046
0.014520
Adjusted R-squared
0.233461
0.019998
S.E. of regression
0.017509
-5.174612
0.010423
Schwarz criterion
Log likelihood
98.73032
F-statistic
6.482164
Durbin-Watson stat
0.214247
Prob(F-statistic)
0.004122
-5.043997
Travail demand :
Aprs avoir rappel les principales caractristiques de ce test (hypothses nulle et alternative, principe
gnral du test, rgle de dcision), commenter les rsultats. Conclure quant la nature des rsidus.
Rappel : la valeur critique de la loi du Khi-deux 2 degrs de libert et au seuil de 5% est gale 5,991.
92
ANNEXES
ANNEXE 1 : TABLES STATISTIQUES
Test de Shapiro et Wilk [table des coefficients]
n
J
1
2
3
4
5
n
J
1
2
3
4
5
6
7
8
9
10
n
J
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
10
0.7071
0.7071
0.0000
0.6872
0.1677
0.6646
0.2413
0.0000
0.6431
0.2806
0.0875
0.6233
0.3031
0.1401
0.0000
0.6052
0.3164
0.1743
0.0561
0.5888
0.3244
0.1976
0.0947
0.0000
0.5739
0.3291
0.2141
0.1224
0.0399
11
12
13
14
15
16
17
18
19
20
0.5601
0.3315
0.2260
0.1429
0.0695
0.0000
0.5475
0.3325
0.2347
0.1586
0.0922
0.0303
0.5359
0.3325
0.2412
0.1707
0.1099
0.0539
0.0000
0.5251
0.3318
0.2460
0.1802
0.1240
0.0727
0.0240
0.5150
0.3306
0.2495
0.1878
0.1353
0.0880
0.0433
0.0000
0.5056
0.3290
0.2521
0.1939
0.1447
0.1005
0.0593
0.0196
0.4963
0.3273
0.2540
0.1988
0.1524
0.1109
0.0725
0.0359
0.0000
0.4886
0.3253
0.2553
0.2027
0.1587
0.1197
0.0837
0.0496
0.0163
0.4808
0.3232
0.2561
0.2059
0.1641
0.1271
0.0932
0.0612
0.0303
0.0000
0.4734
0.3211
0.2565
0.2085
0.1686
0.1334
0.1013
0.0711
0.0422
0.0140
21
22
23
24
25
26
27
28
29
30
0.4643
0.3185
0.2578
0.2119
0.1736
0.1399
0.1092
0.0804
0.0530
0.0263
0.0000
0.4590
0.3156
0.2571
0.2131
0.1764
0.1443
0.1150
0.0878
0.0618
0.0368
0.0122
0.4542
0.3126
0.2563
0.2139
0.1787
0.1480
0.1201
0.0941
0.0696
0.0459
0.0228
0.0000
0.4493
0.3098
0.2554
0.2145
0.1807
0.1512
0.1245
0.0997
0.0764
0.0539
0.0321
0.0107
0.4450
0.3069
0.2543
0.2148
0.1822
0.1539
0.1283
0.1046
0.0823
0.0610
0.0403
0.0200
0.0000
0.4407
0.3043
0.2533
0.2151
0.1836
0.1563
0.1316
0.1089
0.0876
0.0672
0.0476
0.0284
0.0094
0.4366
0.3018
0.2522
0.2152
0.1848
0.1584
0.1346
0.1128
0.0923
0.0728
0.0540
0.0358
0.0178
0.0000
0.4328
0.2992
0.2510
0.2151
0.1857
0.1601
0.1372
0.1162
0.0965
0.0778
0.0598
0.0424
0.0253
0.0084
0.4291
0.2968
0.2499
0.2150
0.1064
0.1616
0.1395
0.1192
0.1002
0.0822
0.0650
0.0483
0.0320
0.0159
0.0000
0.4254
0.2944
0.2487
0.2148
0.1870
0.1630
0.1415
0.1219
0.1036
0.0862
0.0697
0.0537
0.0381
0.0227
0.0076
W 95%
0.842
0.850
0.859
0.856
0.874
0.881
0.837
0.892
0.897
0.901
0.905
0.908
0.911
0.914
0.916
0.918
0.920
0.923
0.924
0.926
0.927
0.929
0.930
0.931
0.933
0.934
0.935
0.936
0.938
0.939
0.940
0.941
0.942
0.943
0.944
0.945
0.945
0.946
0.947
0.947
0.947
W 99%
0.781
0.792
0.805
0.814
0.825
0.835
0.844
0.851
0.858
0.863
0.868
0.873
0.878
0.881
0.884
0.888
0.891
0.894
0.896
0.898
0.900
0.902
0.904
0.906
0.908
0.910
0.912
0.914
0.916
0.917
0.919
0.920
0.922
0.923
0.924
0.926
0.927
0.928
0.929
0.929
0.930
93
94
Pr
ddl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
80
120
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.05
0.02
0.01
0.001
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.137
0.127
0.127
0.127
0.126
0.126
0.126
0.126
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.255
0.254
0.254
0.253
0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.388
0.387
0.386
0.385
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
0.540
0.539
0.538
0 537
0.536
0.535
0.534
0.534
0.533
0.533
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0 530
0.530
0.529
0.527
0.526
0.524
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0 688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.677
0.674
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.961
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.851
0.848
0.845
0.842
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.050
1.046
1.041
1.036
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
1.282
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
1.645
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.263
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
1.960
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.358
2.326
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.617
2.576
636.619
31.598
12.929
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.767
3.745
3.725
3.707
3.690
3.674
3.649
3.656
3.551
3.460
3.373
3.291
95
Nu2
1
2
3
4
3
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
Nu1 = 1
= 0.05 = 0.01
161.4
4052.00
18.51
98.49
10.13
34.12
7.71
21.20
6.61
16.26
3.99
13.74
3.39
12.23
3.32
11.26
5.12
10.56
4.96
10.04
4.84
9.65
4.75
9.33
4.67
9.07
4.60
8.86
4.34
8.68
4.49
8.53
4.45
8.40
4.41
8.28
4.38
8.18
4.35
8.10
4.32
8.02
4.30
7.94
4.28
7.88
4.26
7.82
4.24
7.77
4.22
7.72
4.21
7.68
4.20
7.64
4.18
7.60
4.17
7.56
4.08
7.31
4.00
7.08
3.92
6.85
3.84
6.64
Nu1 = 2
= 0.05
= 0.01
199.5
4999.00
19.00
99.00
9.55
30.81
6.94
18.00
5.79
13.27
3.14
10.91
4.74
9.35
4.46
8.63
4.26
8.02
4.10
7.56
3.98
7.20
3.88
6.93
3.80
6.70
3.74
6.31
3.68
6.36
3.63
6.23
3.59
6.11
3.53
6.01
3.52
5.93
3.49
5.85
3.47
5.78
3.44
5.72
3.42
5.66
3.40
5.61
3.38
5.37
3.37
5.33
3.33
5.49
3.34
5.43
3.33
5.42
3.32
5.39
3.23
5.18
3.15
4.98
3.07
4.79
2.99
4.60
Nu1 = 3
= 0.05 = 0.01
213.7
3403.00
19.16
99.17
9.28
29.46
6.59
16.69
5.41
12.06
4.76
9.78
4.33
8.43
4.07
7.39
3.86
6.99
3.71
6.33
3.59
6.22
3.49
5.93
3.41
5.74
3.34
5.56
3.29
5.42
3.24
5.29
3.20
5.18
3.16
5.09
3.13
5.01
3.10
4.94
3.07
4.87
3.05
4.82
3.03
4.76
3.01
4.72
2.99
4.68
2.98
4.64
2.96
4.60
2.95
4.57
2.93
4.34
2.92
4.31
2.84
4.31
2.76
4.13
2.68
3.93
2.60
3.78
Nu1 = 4
= 0.05
= 0.01
224.6
5625.00
19.25
99.25
9.12
28.71
6.39
13.98
5.19
11.39
4.53
9.13
4.12
7.85
3.84
7.01
3.63
6.42
3.48
5.99
3.36
5.67
3.26
5.41
3.18
5.20
3.11
5.03
3.06
4.89
3.01
4.77
2.96
4.67
2.93
4.58
2.90
4.50
2.87
4.43
2.84
4.37
2.82
4.31
2.80
4.26
2.78
4.22
2.76
4.18
2.74
4.14
2.73
4.11
2.71
4.07
2.70
4.04
2.69
4.02
2.61
3.83
2.32
3.65
2.43
3.48
2.37
3.32
Nu1 = 5
= 0.05 = 0.01
230.2
5764.00
19.30
99.30
9.01
28.24
6.26
13.32
5.03
10.97
4.39
8.75
3.97
7.45
3.69
6.63
3.48
6.06
3.33
5.64
3.20
5.32
3.11
5.06
3.02
4.86
2.96
4.69
2.90
4.56
2.85
4.44
2.81
4.34
2.77
4.25
2.74
4.17
2.71
4.10
2.68
4.04
2.66
3.99
2.64
3.94
2.62
3.90
2.60
3.86
2.39
3.82
2.37
3.78
2.56
3.75
2.34
3.73
2.53
3.70
2.43
3.31
2.37
3.34
2.29
3.17
2.21
3.02
S12 est la plus grande des deux variances estimes. avec n degrs de libert au numrateur.
96
Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 5 %.
2
Autocorrlation
positive
Absence
dautocorrlation
DOUTE
dL
du
Autocorrlation
ngative
DOUTE
4-du
4-dL
k=1
k=2
k=3
k=4
k=5
n
dL
du
dL
du
dL
du
dL
du
dL
du
15
1.08
1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16
1.10
1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17
1.13
1.38
1.02
1.54 0.90 1.71
0.78
1.91 0.67 2.10
18
1.16
1.39
1.05
1.53 0.93 1.69 0.82 1.87
0.71 2.06
19
1.18
1.40 1.08
1.53 0.97 1.68 0.86 1.85 0.75 2.02
20
1.20
1.41
1.10
1.54 1.00 1.68 0.90 1.83 0.79 1.99
21
1.22
1.42
1.13
1.54
1.03
1.67 0.93 1.81 0.83 1.96
22
1.24
1.43
1.15
1.54
1.05 1.66 0.96 1.80 0.86 1.94
23
1.26
1.44
1.17
1.54 1.08 1.66 0.99 1.79 0.90 1.92
24
1.27
1.45
1.19
1.55
1.10
1.66
1.01
1.78 0.93 1.90
25
1.29
1.45
1.21
1.55
1.12
1.66 1.04
1.77 0.95 1.89
26
1.30
1.46
1.22
1.55
1.14
1.65 1.06 1.76 0.98 1.88
27
1.32
1.47
1.24
1.56
1.16
1.65 1.08 1.76
1.01
1.86
28
1.33
1.48 1.26
1.56
1.18
1.65
1.10
1.75
1.03
1.85
29
1.34
1.48
1.27
1.56
1.20
1.65
1.12
1.74
1.05
1.84
30
1.35
1.49 1.28
1.57
1.21
1.65
1.14
1.74
1.07
1.83
31
1.36
1.50
1.30
1.57
1.23
1.65
1.16
1.74
1.09 1.83
32
1.37
1.50
1.31
1.57
1.24
1.65
1.18
1.73
1.11
1.82
33
1.38
1.51
1.32
1.58
1.26
1.65
1.19
1.73
1.13
1.81
34
1.39
1.51
1.33
1.58
1.27
1.65
1.21
1.73
1.15
1.81
35
1.40
1.52
1.34
1.58
1.28
1.65
1.22
1.73
1.16
1.80
36
1.41
1.52
1.35
1.59
1.29
1.65
1.24
1.73
1.18
1.80
37
1.42
1.53
1.36
1.59
1.31
1.66
1.25
1.72
1.19
1.80
38
1.43
1.54
1.37
1.59
1.32
1.66 1.26
1.72
1.21
1.79
39
1.43
1.54
1.38 1.60
1.33
1.66
1.27
1.72
1.22
1.79
40
1.44
1.54
1.39 1.60 1.34
1.66 1.29
1.72
1.23
1.79
45
1.48
1.57
1.43
1.62
1.38
1.67
1.34
1.72
1.29
1.78
50
1.50
1.59 1.46 1.63
1.42
1.67
1.38
1.72
1.34
1.77
55
1.53
1.60 1.49 1.64 1.45 1.68
1.41
1.72
1.38
1.77
60
1.55
1.62
1.51
1.65 1.48 1.69 1.44
1.73
1.41
1.77
65
1.57
1.63
1.54 1.66 1.50
1.70
1.47
1.73
1.44
1.77
70
1.58
1.64
1.55
1.67
1.52
1.70
1.49 1.74
1.46
1.77
75
1.60
1.65
1.57
1.68 1.54
1.71
1.51
1.74
1.49
1.77
80
1.61
1.66 1.59 1.69 1.56
1.72
1.53
1.74
1.51
1.77
85
1.62
1.67 1.60 1.70
1.57
1.72
1.55
1.75
1.52
1.77
90
1.63
1.68
1.61
1.70
1.59
1.73
1.57
1.75
1.54
1.78
95
1.64
1.69 1.62
1.71
1.60
1.73
1.58
1.75
1.56
1.78
100 1.65
1.69 1.63
1.72
1.61
1.74
1.59
1.76
1.57
1.78
Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 1 %.
2
Autocorrlation
positive
n
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
55
60
65
70
75
80
85
90
95
100
Absence
dautocorrlation
DOUTE
dL
du
Autocorrlation
ngative
DOUTE
4-du
4-dL
k=1
k=2
k=3
k=4
k=5
dL
du
dL
du
dL
du
dL
du
dL
du
0.81
1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96
0.84
1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90
0.87
1.10
0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85
0.90
1.12 0.80 1.26
0.71
1.42 0.61 1.60 0.52 1.80
0.93
1.13
0.83 1.26 0.74
1.41 0.65 1.58 0.56 1.77
0.95
1.15 0.86 1.27
0.77
1.41 0.68 1.57 0.60 1.74
0.97
1.16 0.89 1.27 0.80 1.41
0.72 1.55 0.63
1.71
1.00
1.17
0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69
1.02
1.19 0.94 1.29 0.86 1.40 0.77
1.53 0.70 1.67
1.04
1.20 0.96 1.30 0.88 1.41 0.80 1.53
0.72 1.66
1.05
1.21 0.98 1.30 0.90 1.41 0.83 1.52
0.75 1.65
1.07
1.22
1.00
1.31
0.93 1.41 0.85 1.52 0.78 1.64
1.09
1.23
1.02
1.32 0.95 1.41 0.88 1.51
0.81 1.63
1.10
1.24
1.04
1.32 0.97 1.41 0.90 1.51
0.83 1.62
1.12
1.25
1.05
1.33 0.99 1.42 0.92
1.51
0.85 1.61
1.13
1.26
1.07
1.34
1.01
1.42 0.94 1.51 0.88 1.61
1.15
1.27
1.08 1.34
1.02
1.42 0.96 1.51 0.90 1.60
1.16
1.28
1.10
1.35
1.04 1.43 0.98 1.51
0.92 1.60
1.17
1.29
1.11
1.36
1.05
1.43 1.00
1.51 0.94 1.59
1.18
1.30
1.13
1.36
1.07
1.43
1.01
1.51
0.95 1.59
1.19
1.31
1.14
1.37
1.08 1.44 1.03
1.51
0.97 1.59
1.21
1.32
1.15
1.38
1.10
1.44 1.04
1.51 0.99 1.59
1.22
1.32
1.16
1.38
1.11
1.45 1.06
1.51
1.00 1.59
1.23
1.33
1.18
1.39
1.12
1.45
1.07
1.52
1.02
1.58
1.24
1.34
1.19
1.39
1.14
1.45 1.09
1.52
1.03
1.58
1.25
1.34
1.20
1.40
1.15
1.46
1.10
1.52
1.05
1.58
1.29
1.38
1.24
1.42
1.20
1.48
1.16
1.53
1.11
1.58
1.32
1.40 1.28
1.45
1.24
1.49 1.20
1.54
1.16
1.59
1.36
1.43
1.32
1.47
1.28
1.51
1.25
1.55
1.21
1.59
1.38
1.45
1.35
1.48
1.32
1.52
1.28
1.56
1.25
1.60
1.41
1.47
1.38
1.50
1.35
1.53
1.31
1.57
1.28
1.61
1.43
1.49 1.40
1.52
1.37
1.55
1.34
1.58
1.31
1.61
1.45
1.50
1.42
1.53
1.39
1.56
1.37
1.59
1.34
1.62
1.47
1.52
1.44
1.54
1.42
1.57
1.39 1.60 1.36
1.62
1.48
1.53
1.46
1.55
1.43
1.58
1.41
1.60 1.39
1.63
1.50
1.54
1.47
1.56
1.45
1.59
1.43
1.61
1.41
1.64
1.51
1.55
1.49
1.57
1.47
1.60 1.45
1.62
1.42
1.64
1.52
1.56
1.50
1.58
1.48 1.60 1.46 1.63
1.44 1.65
97
98
Une fois install, le logiciel Eviews est lanc comme tout autre en double-cliquant sur licne Eviews au
bureau.
Barre de menu
Barre de commande
Workfile
99
Supposons que lon ait une srie temporelle annuelle, qui va de 2000 2010. Il suffira de choisir :
-
Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette premire page [EXERCICE par
exemple] :
1. Enregistrer les donnes saisies sur Excel sous Excel 97-2003, en ayant en mmoire juste les noms
donns aux sries, puis fermer le fichier ;
2. Dans Eviews, crer une feuille de travail avec la mme taille dchantillon que les donnes
enregistres sur Excel. Puis crer les variables avec les mmes noms que sur Excel.
Import
Read Text-Lotus-Excel Une bote
de dialogue apparat o il faut reprendre le nom du fichier Excel. Rechercher le fichier o il a t
enregistr, puis le slectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider.
4. Une nouvelle bote de dialogue apparat. L, dans Names of series or number if named in file, taper
les noms des sries dans le mme ordre que sur Excel, puis OK.
100
Illustration de ltape 3
Illustration de ltape 4
101
On lit par exemple, pour chaque srie, sa Moyenne [Mean], sa Mdiane [Median], son Maximum, son
Minimum, son Ecart-Type [Std. Dev.], son coefficient dasymtrie [Skewness], son coefficient
daplatissement [Kurtosis], sa statistique Jarque Bera, etc
De mme, il y a lieu davoir les mmes rsultats, dans la barre de commande, saisir la commande show
TCPIB CHOM puis valider, dans la fentre qui souvre, aller dans View
Descriptive Stats
Common Sample.
Graphiques
Dans la barre de commande, saisir les commandes :
Pour avoir dautres types de graphiques proposs par Eviews, dans la fentre des donnes, aller dans
View
Graph. Puis valider le graphique de son choix.
102
TCPIB
CHOM
CHOM
TCPIB
TCPIB
CHOM
Correlation
t-Statistic
Probability
Observ.
1.000000
-0.677304
1.000000
-----2.761860
-----
----0.0220
-----
11
11
11
Eviews renvoie le coefficient, son Student et la probabilit critique, ce qui facilite beaucoup
linterprtation des rsultats, avec comme critre : rejeter H0 si probabilit critique < au seuil de
signification.
Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chmage et la
croissance du PIB en RDC, pour la priode 2000-2010, la loi dOkun se vrifie-t-elle ?
103
Avril 2012
Numro-010
Lien : http://www.lareq.com
Avertissement
Ce papier est crit dans lobjectif de mettre en garde contre le risque des conclusions errones lors des
tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est crit au moment o, parmi la plupart
de nos tudiants du niveau de la licence, la mauvaise procdure et la mauvaise interprtation de ces
tests ont gagn le terrain.
Lobjet de notre papier repose sur le fait que nombre dconomtres en herbe, en menant ces tests,
oublient que ceux-ci considrent que la composante dterministe suit une tendance linaire et quun
processus DS (stationnaire en dme diffrence) nexclut pas la possibilit dun trend dun autre type.
De plus, ironie du sort, on ne pense dtecter la nature du trend que si les tests concluent une non
stationnarit dterministe et quil convient dappliquer lcart la tendance. Ce qui, curieusement,
revient accepter la possibilit davoir un trend de type non linaire dont on ne sest pas donn la peine
de dtecter au dbut du test.
Que faire ? Ce papier se propose de rpondre, prudemment, cette question, dabord en privilgiant les
aspects thoriques, ensuite en considrant une tude des cas qui permet de mettre en exergue la
problmatique souleve ci-dessus.
I.
A titre de rappel, un processus est stationnaire, au sens faible, si ses moments dordre 1 et dordre 2
sont indpendants du temps. Dans le cas contraire, il est dit non stationnaire. Pour ce dernier type de
chroniques, lune au moins de trois conditions ci-aprs est viole :
(i)
E(Yt) =
(ii)
E(
(iii)
)=
Les travaux pionniers de Nelson et Plosser (1982), qui ont soulign la prsence dune racine unitaire dans
les principales sries macroconomiques, distinguent en effet deux types de processus dans la famille
des processus non stationnaires :
104
Les processus TS [Trend Stationary] qui sexpriment comme une fonction du temps et dun bruit
blanc :
Yt = f(t) + Zt
Ce type de processus est rendu stationnaire en lui retirant sa tendance dterministe [Zt = Yt - f(t)].
Les processus DS [Differency Stationary] qui sont caractriss par la prsence dau moins une
racine unitaire. De tels processus sont rendus stationnaires aprs d diffrences, (1 B)dYt.
Dun point de vue conomique, un processus TS implique que les chocs alatoires frappant lconomie
nauront quun effet transitoire sur lvolution de la chronique qui aura tendance ensuite revenir sur son
trend de long terme stable. En revanche, les chocs frappant lconomie auront un effet persistant et
durable sur lvolution de la chronique si le processus est DS.
II.
Le but et lavantage des tests de non stationnarit consistent en la confirmation ou non de la non
stationnarit46, en la dtermination du type de processus et en la prcision de la bonne mthode de
stationnarisation.
On fait gnralement deux catgorisations de ces tests, synthtises dans le tableau ci-aprs.
Tableau 1. Catgorisation de tests de non stationnarit
Catgorisation quant aux hypothses testes
Tests dH0 de prsence de racine unitaire
- Test Dickey Fuller [DF]
[KPSS]
- Test DF
- Test ADF
Phillips
- Test PP
- Test de Ng Perron
de Perron
- Test KPSS
- Etc.
La critique que nous formulons dans ce papier concerne essentiellement linterprtation des rsultats de
tests ADF et PP.
46
En effet, un examen graphique est parfois assez loquent pour se prononcer sur la non stationnarit dune
chronique.
105
Dickey et Fuller (1976) sont les premiers avoir fourni un ensemble doutils statistiques formels pour
dtecter la non stationnarit dans un processus autorgressif du premier ordre. Dans leurs premiers
dveloppements, ils ont assum que le processus t tait un bruit blanc, or rien, priori, ne conduit la
satisfaction dune telle hypothse. La prise en compte de cette faiblesse a conduit les deux auteurs
proposer, en 1981, un test augment (ADF).
Le test de Phillips - Perron47, en revanche, propose une correction non paramtrique des tests de Dickey
Fuller afin de tenir compte des erreurs htroscdastiques.
La procdure des tests ADF et PP est base sur lestimation, par les MCO, de trois modles
autorgressifs, en intgrant tous les retards significatifs en diffrences premires, suivants :
[1]
Yt = Yt-1 +
+ t
[2]
Yt = c + Yt-1 +
[3]
Yt = c + bt + Yt-1 +
+ t
+ t
Le modle [3] est le modle gnral o la composante dterministe suit un trend linaire (t). Rappelons
que les tests ADF et PP sont des tests dhypothse nulle de prsence de racine unitaire et portent sur le
paramtre :
H0 : = 0
H1 : < 0
Conclusion du test
estimer
1. Estimer le
modle [3]
Tester b
Processus
Il y a un trend linaire
TS
Mthode de
stationnarisation
Ecart la tendance
.
2. Estimer le
Significatif
Tester
modle [2]
Tester c
Non RH0
DS avec drive
RH0
stationnaire
Non RH0
DS sans drive
RH0
stationnaire
Non significatif
.
3. Estimer le modle [1]
Tester
106
200
35000
30000
150
25000
20000
100
15000
10000
50
5000
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
0
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
7E+86
6E+86
4
5E+86
4E+86
3E+86
2E+86
1
1E+86
0
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
1
12
23
34
45
56
67
78
89
100
111
122
133
144
155
166
177
188
199
107
900
800
700
600
500
400
300
200
100
0
00
01
02
03
04
05
06
07
08
09
IP
La srie IP prsente une tendance haussire. Elle semble non stationnaire affecte dune tendance. Mais
de quel type ? Visiblement, dun trend non linaire.
Figure 3. Analyse du corrlogramme de la srie IP
Ce corrlogramme fait tat dune dcroissance lente de toutes les autocorrlations de IP. On constate
aussi que la premire autocorrlation partielle est significativement diffrente de zro. Ceci est indicatif
dune srie non stationnaire.
48
Les donnes sont reprises en annexe 1 et proviennent de la section conomique de lAmbassade Amricaine. Elles
sont mensuelles et couvrent la priode allant de 2000 2009.
108
Les rsultats de ces tests sont repris intgralement en annexe 2 de ce papier. Le nombre de retard,
retenu pour les deux tests, a t trouv en appliquant la stratgie destimation squentielle fonde sur
la significativit des coefficients des retards en diffrences premires, propose par Perron (1993).
Alors que lanalyse du plot a indiqu que la srie comportait un trend, les tests ADF et PP, synthtiss ciaprs, disent quil y a absence de trend. Cest donc ici quil faut viter toute conclusion htive. Il ny a
pas absence dun trend dans la srie IP, il y a plutt absence dun trend linaire.
Tableau 3. Test ADF et PP de la srie IP niveau
Retard
Drive
Trend
linaire
Non
Non
IP
P-value
Statistique
ADF
En niveau
Statistique
PP
6.706690
8.150683
1.0000
1.0000
Valeur critique
[ 5%]
Conclusion
Non-stationnaire
Type stochastique
-1.943540
La srie tant caractrise par une non stationnarit de nature stochastique (DS), il convient
dappliquer le filtre aux diffrences pour la rendre stationnaire.
Tableau 4. Tests ADF et PP de la srie IP en diffrences premires
IP
P-value
Statistique ADF
7.150804
0.0000
En diffrences premires
Statistique PP
Valeur critique [ 5%]
7.167671
-1.943563
0.0000
Conclusion
stationnaire
80
60
40
20
0
-20
-40
-60
00
01
02
03
04
05
DIP
06
07
08
09