!!!!!!!!!!!!!!!!!!!!!!!!!!! 1 A Voir Économetrie

E CONOMETRIE 1
Ass. Cdrick Tombola M.
Rappels et recueil dexercices [rsolus]
Sous la supervision du Professeur BOSONGA BOFEKI

Licence 1 Economie
Cdrick Tombola M. /Assistant
UPC
Copyright cdktombola-Larq - mars 2012
A travers cette contre chaotique, des hommes audacieux et tenaces ont lanc le premier chemin de fer de
lAfrique centrale.
Henry Merton Stanley
N'essayez pas de devenir un homme qui a du succs. Essayez de devenir un homme qui a de la valeur.
Albert Einstein
PLAN SOMMAIRE
AVANT PROPOS
INTRODUCTION
THEORIE DE LA CORRELATION
MODELE DE REGRESSION LINEAIRE SIMPLE
MODELE DE REGRESSION LINEAIRE MULTIPLE
MODELES DE REGRESSION NON LINEAIRES
VIOLATION DES HYPOTHESES DE BASE
ANNEXES
AVANT-PROPOS
Je ne peux nier, quand jai commenc la rdaction de ce recueil, lambition de confectionner un vade-mecum
dintroduction lEconomtrie lintention des tudiants de premire licence FAS. Mais le nombre de projets
sur la file dattente et les nombreux dfis entre lesquels il me faut partager mon temps dune part, et le besoin
rel et urgent chez les tudiants de disposer dun recueil qui accompagne le cours magistral assur par le
professeur dautre part, mont oblig ne produire quune bauche.
Le projet de proposer ce recueil est n de la dception et de linsatisfaction que jprouvais, encore tudiant,
lors des sances TP dEconomtrie 1. Alors quailleurs ils prennent de la vitesse, nous, me semblait-il, on
tombait, paradoxalement, dans la suffisance.
Ce recueil a donc t rdig de faon permettre aux tudiants de porter un autre regard sur les notions quils
apprennent pendant le cours thorique et de voir plus loin que moi. Le choix des applications a galement t
fait dans cette optique. On remarquera que, par souci pdagogique et dexcellence, je me suis plus attard sur
les aspects et les dmonstrations les moins populaires, bref, sur les non-dits.
Les tudiants passionns et qui veulent aller loin en Economtrie, trouveront aussi, en annexe, une initiation au
logiciel conomtrique EVIEWS.
Enfin, en le mettant la disposition du public, je formule le vu que ce recueil suscite, parmi mes tudiants et
mes collgues de la FAS, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi viter que
nos efforts pour lavancement de cette facult ne sessoufflent et natteignent, prmaturment, un tat
stationnaire , ce qui serait dommage .
Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance quil a eue en moi vrai dire, sans vraiment
me connatre et pour mavoir orient dans la rdaction de ce recueil.
Mes sincres remerciements vont mon an et mon ami lassistant Jean-Paul Tsasa V. Kimbambu, pour nos
nombreuses discussions, parfois laisses en queue de poisson, et pour lidal quil ma transmis.
Je remercie aussi mes tudiants de premire licence FAS, de la promotion 2011-2012, pour avoir beaucoup
exig et attendu de moi ; ils mont contraint plus de srieux dans le travail, et je leur en suis reconnaissant.
Bien entendu, ce support nengage que son auteur. Toute remarque pertinente pouvant en amliorer le
contenu sera la bienvenue.
Ddicace
Je ddie ce recueil lavenir du LAREQ et lmergence dune nouvelle classe denseignants lUPC.
Cdrick Tombola M.
cedrictombola@lareq.com
.I.
INTRODUCTION
I.1. Quelques points de lhistoire
. Avant 1930 : Le Moyen-ge conomtrique
Les premiers dveloppements de lEconomtrie1 peuvent remonter, selon Grard Grellet, au 17me sicle,
lpoque de lArithmtique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs
comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modlisation partir des
donnes empiriques.
Selon dautres auteurs, on doit la gense de lEconomtrie aux travaux de tentative dunification de
lEconomie et la Statistique dAuguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en
Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentrent dlaborer des lois
conomiques { linstar des lois de la physique newtonienne.
Mais il convient simplement de retenir que nombre de mthodes et techniques auxquelles recourt
lEconomtrie, ont t dveloppes bien avant son institutionnalisation comme discipline des sciences
conomiques. A titre dexemple :
- En 1805, dans son ouvrage intitul Nouvelles mthodes pour la dtermination des orbites des comtes ,
puis en 1806 dans la deuxime dition du mme ouvrage, le mathmaticien franais Adrien-Marie Legendre
propose, par une mthode algbrique, le premier dveloppement rigoureux de la mthode des moindres
carrs ordinaires.
- En 1809, Carl Friedrich Gauss, dans son trait Theoria motus corporum coelestium , propose, par une
approche probabiliste, un autre dveloppement rigoureux de la mthode des moindres carrs ordinaires
dont il se rclame la paternit. Dans une lettre adresse Pierre-Simon de Laplace2, il explique quil avait
fait usage de cette mthode dj en 1795, et de manire un peu plus frquente, dans ces calculs
astronomiques sur les nouvelles plantes, depuis 1802.
Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov dmontrent que lestimateur des moindres carrs
ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. Cest--dire quil est le meilleur
estimateur linaire non biais, variance minimale.
- En 1886, dans son tude sur la transmission des caractres hrditaires, Francis Galton, de qui le terme
rgression tire son origine, fournit une premire rgression linaire. Plus tard, son disciple Karl Pearson, en
1896, dans son ouvrage La Grammaire de la Science , dveloppe la notion de corrlation linaire et
propose un estimateur pour cette grandeur.
La corrlation a t introduite en Economie en 1902, avec louvrage de Arthur Lyon Bowley Elements of
Statistic .
- En 1909, Georges Udny Yule invente les premires applications conomiques de la mthode de la
corrlation et introduit la mme occasion la notion de corrlation partielle. Et en 1926, il dnonce les
On attribue souvent tort au norvgien R. Frisch, la cration du mot conomtrie qui revient plutt Pavel Compria.
Il inclut lui-mme un expos de la mthode des moindres carrs ordinaires dans son trait de 1820 : Thorie
analytique des probabilits . En 1808, le mathmaticien amricain Robert Adrain a aussi publi une formulation de la
mthode des moindres carrs.
2
spurrious correlations , ce quil convient de traduire par corrlations fallacieuses. Puis montre que la
corrlation de deux sries chronologiques peut tre totalement artificielle.
. Depuis 1930 : La naissance de lEconomtrie moderne
Linstitutionnalisation de lEconomtrie en tant que discipline des sciences conomiques sest ralise en
1930 exactement le 29 dcembre 1930 { loccasion de la cration { Cleveland, aux Etats-Unis, par 16
conomistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cits, de lEconometric Society [la Socit
dEconomtrie] avec comme devise : pour lavancement de la thorie conomique dans ses relations avec la
statistique et les mathmatiques.
Depuis la cration de cette socit, et de la Cowles commission spcialise dans les mthodes
destimation des modles { quations simultanes , fonde le 9 septembre 1932, deux ans aprs
lEconometric Society, par Alfred Cowles, lEconomtrie a connu un grand essor.
Cest ainsi quen 1933, R. Frisch cre la revue Econometrica pour la promotion des tudes qui ont pour but
une unification des approches quantitatives thoriques et empiriques des problmes conomiques.
On note aussi que ds le dpart, pour les promoteurs de lEconometric Society, il tait clair que deux
dviations devraient tre vites :
La construction d'difices mathmatiques purement logiques et dconnects du rel conomique.

La mise en uvre de pures investigations statistiques qui, en dpit de leur caractre pouss et de
leur apparence raliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une
pense conomique profonde et rigoureuse.
A ce sujet, R. Frisch crivit ainsi dans le premier numro de la revue Econometrica :

"L'exprience a montr que chacun des trois points de vue suivants, celui de la statistique, celui de la thorie
conomique et celui des mathmatiques est une condition ncessaire, mais par elle mme non suffisante, d'une
comprhension effective des relations quantitatives de la vie conomique moderne : c'est leur unification qui
est efficace. C'est cette unification qui constitue l'conomtrie .
Il faut noter galement que le krach financier des annes 30, la domination du keynsianisme jusqu{ la fin
des annes 60, le dveloppement de linfrence statistique la fin du 19me sicle et le consensus entre les
conomistes autour du cadre IS LM avant 1970, sont aussi parmi les facteurs explicatifs de lessor de
lEconomtrie depuis 1930, surtout au sein de la Cowles commission. La rvolution Keynsienne [1936], avec
la logique de circuit, a dvelopp un autre type de raisonnement macroconomique en termes dagrgats
objectivement mesurables par la comptabilit nationale et de comportements mesurs par les propensions.
Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Economtrie porta sur les conditions
destimation des modles macroconomtriques { quations simultanes.
- En 1935, Jan Tinbergen estime un premier modle conomtrique quations simultanes, du type
keynsien, comportant 31 quations de comportement et 17 identits. Il devient ainsi, dun point de vue
empirique, le pre des modles conomtriques.
- En 1944, Trygve Haavelmo pose les conditions gnrales de solvabilit dun systme dquations linaires.
3
R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart,
Snyder , Wedervang, Wiener, Wilson.
4
Premier laurat du prix de la Banque de Sude communment appel prix Nobel en mmoire de son fondateur
Alfred Nobel dconomie en 1969 avec Jan Tinbergen.
- En 1950, Lawrence Klein ouvre la vogue de la modlisation macroconomtrique. Il estime pour

lconomie amricaine (1921-1941), un modle macroconomtrique de type keynsien 16 quations. Ce
modle est amlior plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modle utilis
des fins prvisionnelles. Klein introduit galement la notion de multicolinarit. Il est parfois considr
comme le pre des modles macroconomtriques.
Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson
laborent leur clbre test dautocorrlation des erreurs. En 1954, Henri Theil et Robert Lon Basmann
introduisent la mthode des doubles moindres carrs. Toujours dans les annes 50, il y eut un
dveloppement des modles retards distribus par Koyck, Almon, Cagan et Friedman.
Lon peut galement citer les travaux suivants dvelopps entre 1950 et 1970 : la mthode des moindres
carrs gnraliss et lintroduction du calcul matriciel en Economtrie par Aitken; les tests et corrections de
lhtroscedasticit [Glejser, White, ].
Lirruption de linformatique au dbut des annes 60 va donner un nouveau coup de pousse { lexpansion
de lEconomtrie.
En 1961, James Tobin dveloppe les modles microconomtriques. Il est, ce titre, considr comme le
pre des modles microconomiques. La mme anne, Yair Mundlak conoit les mthodes bases sur les
donnes de panel.
. Les annes 1970 : La rvolution des anticipations rationnelles
Les annes 1970 ont t marques par cinq faits majeurs qui ont conduit { lclatement du paradigme de la
Cowles commission. Cest--dire une remise en cause radicale des modles macroconomiques structurels
dvelopps au sein de cette institution. Ces faits sont :
Le premier choc ptrolier [en 1973] ou le quadruplement du prix des produits ptroliers, ce qui
marque, historiquement, la fin des Trente Glorieuses5 ;
La stagflation et la remise en cause de la courbe de Phillips;
La chute du keynsianisme et le rejet des modles conomtriques traditionnels devenus caducs
bass sur le paradigme IS LM ;
Le deuxime choc ptrolier [en 1979] ou le doublement du prix des produits ptroliers ;
La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroconomie
Microfonde, le retour aux modles walrassiens et le dveloppement des modles dquilibre
gnral calculable [MEGC].
Les critiques les plus acerbes et svres sont venues essentiellement, ds 1972, de Robert Emerson Lucas 6.
Cest ce que la littrature qualifie de la fameuse critique de Lucas. Il discrdite les modles
macroconomtriques traditionnels, en fustigeant leur incapacit expliquer et prvoir les
bouleversements provoqus par le 1r et le 2me chocs ptroliers. Il leur reproche de manquer de fondations
microconomiques suffisamment solides. De plus, Lucas interdit les prvisions myopes et adaptatives, il
pose la problmatique des anticipations rationnelles, ce qui veut dire que les agents conomiques sont
intelligents et capables de former leurs anticipations sur une base endogne et ainsi anticiper toute mesure
de politique conomique. De fait, toute mesure de politique conomique, ajoute-t-il, devient inefficace du
fait de la prise en compte des anticipations rationnelles, les agents pouvant lanticiper et la contrer.
Trente Glorieuses : Titre dun livre de Jean Fourasti, publi en 1977, qui dsigne la priode de forte croissance
conomique, de plein-emploi et daugmentation des salaires rels et des revenus, quont connu les pays dvelopps, de
laprs-guerre au premier choc ptrolier.
6
Laurat du prix Nobel dEconomie 1995.
Cette critique a pouss les conomtres penser plus profondment sur les fondements de leur discipline
et a donn lieu des critiques plus svres. LEconomtrie va connaitre un changement radical, surtout en
termes de relations quelle entretient avec la thorie conomique.
- En 1970, George Box et Gwilym Jenkins dveloppent le modle ARMA [AutoRegressive with Moving
Average] qui est un mlange des modles AR et MA dvelopps en 1927 respectivement par Georges Yule
et Eugen Slustsky , comme une rponse aux dfaillances constates dans la capacit de prvision des
modles labors la suite des travaux de Tinbergen.
- Dj en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les spurrious
regressions ou rgression fallacieuse, pour le cas dajustement par les MCO dun modle avec sries non
stationnaires.
- En 1980, dans un article qui a connu un succs destime lors de sa parution, intitul Macroeconomics and
Reality, Christopher Sims7, en gnralisant le modle ARMA en modle VAR [Vector Auto Regressive] afin
de tenir compte, au mme moment, de plusieurs variables, reproche aux conomtres davoir mis la
charrue devant les bufs en remettant en cause la distinction priori entre variables endognes et
variables exognes, et considre toute variable comme potentiellement endogne 8. Cest ce que la
littrature appellera lEconomtrie sans thorie. La critique de Sims va permettre { lEconomtrie de devenir
beaucoup plus autonome et de smanciper de la tutelle de la thorie conomique.
- En 1987, Clive Granger et Robert Engle dveloppent la mthode de cointgration dans le traitement des
sries non stationnaires. Une anne aprs, en 1988, Johansen propose une version amliore du test de
cointgration Engle Granger.
- En 1982, Robert Engle dveloppe le modle ARCH afin de prendre en compte la non linarit et la forte
volatilit des variables financires, ce qui ntait pas possible avec les modles ARMA et VAR.
Plusieurs mthodes encore ont t dveloppes depuis la fameuse critique de Lucas, et plus loin encore
dans lhistoire, depuis la cration de la socit dEconomtrie. LEconomtrie a donc connu, ces deux
dernires dcennies, un essor vertigineux.
. Applications et place de lconomtrie
La dmarche en sciences conomiques est hypothtico-dductive. Cest--dire que les thories conomiques
ne sont valables que dans le domaine dfini par leurs hypothses. Sil est vrai que lusage des
mathmatiques est la garantie de la rigueur et de la cohrence interne des thories conomiques
modernes, la question reste cependant pose quant la pertinence de leurs hypothses. Ceci motive le
recours { des outils plus puissants notamment lEconomtrie, qui est un outil de validation des thories.
De fait donc, lconomiste ne doit-il pas tre aussi conomtre ? John Maynard Keynes, dans les annes
1930, crivait : Lconomiste doit tre mathmaticien, historien, philosophe, homme dEtat, . Sil faut
transfrer la pense de Keynes aujourdhui, naurait-il pas lui-mme ajout lconomiste doit tre
conomtre ?
Il est clair quil nest plus possible { ce jour, de faire un bras de fer avec lirruption et la domination de
lEconomtrie dans le champ de la science conomique, au risque, purement et simplement, de se
soustraire de la catgorie dconomistes modernes.
Laurat, avec Thomas Sargent, du prix Nobel dEconomie 2011.

Cette dmarche de Sims sinspire de lun des grands principes de la thorie de lquilibre gnral, selon lequel toutes
les variables conomiques sont dtermines simultanment.
8
Pour renchrir, dans une tude publie en 2006, les conomistes Kim, Morse et Zingales ont montr que le
nombre darticles empiriques cits en conomie est pass de 11 % 60 % entre 1970 et 2000. Ce qui confirme
limportance de plus en plus croissante de lEconomtrie dans lunivers des conomistes.
Par ailleurs, lEconomtrie s'applique tous les domaines auxquels s'applique la science conomique.
L'ouvrage de Levitt et Dubner, Freakonomics, tmoigne de la diversit des applications possibles de
l'conomtrie. Voici quelques exemples significatifs:
En conomie de guerre, Collier Hoeffler [1999] ont mis en vidence, par le recours un modle
conomtrique, les dterminants politiques permettant de mettre fin aux guerres civiles et de
relancer lconomie en priode post-conflit.
En conomie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilis un modle de rgression
linaire pour tester empiriquement la pertinence du modle de Solow. Ils montrent que le modle
de Solow augment du capital humain est cohrent avec les donnes observes. Barro et Sala-iMartin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux mthodes conomtriques afin
de rendre compte de leffet des dpenses publiques sur la croissance.
En conomie de la criminalit, Levitt, en 1997, a utilis un modle linaire variables instrumentales
pour estimer l'effet du nombre de policiers sur la criminalit.
En 2002, Acemoglu, Johnson et Robinson ont utilis une rgression linaire pour estimer l'effet des
institutions sur le dveloppement actuel des pays.
I.2. Quelques rappels statistiques

La force de la statistique est quon nest pas oblig dtudier toute la population. Il est possible de tirer des
conclusions sur une population, { partir dun chantillon suffisamment reprsentatif.
Et comme les donnes en elles-mmes ne sont pas intelligibles, le statisticien recherche la synthse. Sa
premire dmarche pour synthtiser les donnes consiste { calculer les paramtres de description, cest la
statistique descriptive. Plus tard, la dmarche du statisticien consistera contraster des donnes
empiriques aux lois thoriques, dont on connait parfaitement les comportements, en vue de faire de la
prdiction, cest la statistique infrentielle [ou mathmatique].
Encadr 1. Conditions de Yule
Le statisticien britannique Georges U. Yule a nonc un certain nombre de proprits souhaites pour les
indicateurs des sries statistiques ; ceux-ci doivent tre dune part, des rsums maniables et dautre
part, les plus exhaustifs possibles relativement { linformation contenue dans les donnes.
Dans son schma, une caractristique statistique doit tre une valeur-type :
1.
2.
3.
4.
5.
6.
dfinie de faon objective et donc indpendante de lobservateur,

dpendante de toutes les observations,
de signification concrte pour tre comprise par les non-spcialistes,
simple calculer,
peu sensible aux fluctuations dchantillonnages,
se prtant aisment aux oprateurs mathmatiques classiques.
En ralit, on ne dispose pas de caractristiques rpondant simultanment ces six conditions. Le choix
dun indicateur sera lobjet dun compromis guid par la spcificit de ltude en cours.
Source : Adapt de B. Goldfard et C. Pardoux, 1995.
Indicateurs de position [ou de tendance centrale]

Soit une variable X observe sur un chantillon de n individus. xt est la valeur prise par X pour lobservation t.
1.
La moyenne arithmtique :
La moyenne arithmtique9 est la mesure de rpartition quitable. Elle conserve la somme totale et satisfait toutes les
conditions de Yule, sauf la 5me, car elle est une mesure sensible aux valeurs extrmes.
Lorsque les valeurs sont alatoires, la moyenne arithmtique est appele Esprance mathmatique .
2. La mdiane [Me] : est la mesure qui divise la srie en deux groupes de tailles gales. Aprs avoir class les
donnes en ordre croissant, elle correspond pour n impair [pair], au point milieu [ la moyenne arithmtique de deux
points milieux].
Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement la moyenne arithmtique, la mdiane rsiste aux
valeurs extrmes.
3. Le mode [Mo] : est la valeur dominante de la srie, celle qui a la frquence la plus leve.
Pour une distribution discrte, le mode satisfait aux conditions 1, 3 et 4 de Yule.
Le premier Quartile Q1
[ou quantile dordre 1,
x25%]
4.
Les quartiles
Le deuxime Quartile
[ou quantile dordre
x50%]
Le troisime Quartile
[ou quantile dordre
x75%]
Q2
2,
Q3
3,
Valeur telle quau moins 25% des valeurs prises par X lui sont
infrieures. Aprs avoir class les donnes et spar la
population en deux, le Q1 est la mdiane de la premire souspopulation.
Le Q2 est la mdiane.
Valeur telle quau moins 75% des valeurs prises par x lui sont
infrieures. Le Q3 est la mdiane de la deuxime souspopulation.
Note : Les quartiles non plus ne subissent pas linfluence des valeurs extrmes. Comme la mdiane, les quartiles
satisfont aux conditions 1, 3, 4 et 5 de Yule.
Indicateurs de dispersion
5.
La variance :
La variance empirique :
La variance est la moyenne arithmtique des carrs des carts dune variable { sa moyenne arithmtique. Elle donne
une ide de la dispersion [ou dviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec
la variance on change dchelle, elle sexprime dans le carr de lunit en laquelle sexpriment les observations. Pour
revenir { lchelle du dpart, on prend sa racine carre qui est lcart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.
Note : La variance empirique est lestimateur non biais de la variance. La variance est un estimateur biais car utilisant
un autre estimateur dans son calcul.
6. Lcart-type :
Lcart-type empirique :
Lcart-type est la racine carre de la variance. Il est la mesure de dispersion la plus utilise. Elle satisfait aux conditions
1, 2 et 6 de Yule, et est plus sensible aux fluctuations dchantillonnage et aux valeurs extrmes que la moyenne
arithmtique, en raison des lvations au carr.
7. Ltendue : max xt min xt
Ltendue est la diffrence entre la plus grande et la plus petite des valeurs observes. Elle est trs influence par les
valeurs extrmes et ne satisfait pas aux conditions 2 et 5 de Yule.
8. LEtendue [cart] interquartile : EIQ = Q3 Q1
Lcart interquartile nest pas sensible aux valeurs extrmes.
Dans le langage courant, on dit simplement moyenne. Or, selon la manire dont le total des individus est calcul, il
existe diffrentes moyennes [moyenne gomtrique, moyenne harmonique, moyenne quadratique].
10
Indicateurs de forme [de la distribution]

Parlons tout dabord de la notion des moments.
Le moment centr sur a dordre r
a r
Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre dexemple,
si a=0 et r=1, on retrouve la moyenne arithmtique, qui nest rien dautre que le moment non centr dordre 1. La
variance serait donc le moment centr sur la moyenne arithmtique dordre 2, etc.
Note : dans la suite, on dira moment centr pour parler de moment centr sur la moyenne arithmtique. On peut
aisment vrifier que le moment centr sur la moyenne arithmtique dordre 1 (1) est nul.
9. Lasymtrie [Skewness en anglais]: est base sur le moment centr dordre 3.
Pour une distribution symtrique, telle que la loi normale, la moyenne arithmtique est gale la mdiane gale au
mode. De plus, les moments centrs dordre impair sont nuls pour une distribution symtrique.
Le coefficient dasymtrie de Fisher : 1 =
1 est nul pour une distribution symtrique, telle que la loi normale.
Asymtrie gauche [distribution
tale droite]
Distribution symtrique
Asymtrie droite [distribution

tale gauche]
1<0
=Me=Mo
1=0
1>0
10. Laplatissement [Kurtosis en grec, qui signifie bosse] : est bas sur le moment centr dordre 4 et permet de
mesurer limportance des queues dune distribution ou son aplatissement.
Le coefficient daplatissement de Fisher : 2 =
2 est nul pour une distribution mesokurtique. Cest le cas dune distribution gaussienne [normale].
Distribution mesokurtique
Distribution platokurtique
2<0
Cas de la distribution de Student
2=0
Cas de la distribution normale
Distribution leptokurtique
2>0
La loi normale
La loi normale est une des principales distributions de probabilit. On dit quelle est parfaite, car sa densit de
probabilit dessine une courbe en cloche ou courbe de Gauss, qui est la fois symtrique et mesokurtique.
Elle a t introduite, en 1733, par le mathmaticien Abraham de Moivre, et mise en vidente plus tard, au 19 me sicle,
par Carl F. Gauss. Elle est galement connue sous le nom de la loi de Gauss. Une variable distribue selon cette loi est
dite normale ou gaussienne.
Test dhypothse [un petit commentaire]
11
Un test d'hypothse est une dmarche consistant valuer une hypothse statistique en fonction d'un chantillon. Il
sagit donc de confronter une hypothse dite nulle [HO] contre une hypothse de recherche ou alternative [H1].
Une notion essentielle qui concerne les tests est la probabilit que l'on a de se tromper. Il existe deux faons de se
tromper lors dun test statistique :
La premire faon de se tromper est de commettre lerreur [ou risque] de premire espce, not , qui est
la probabilit de rejeter tort HO alors quelle est vraie. On dit, dans ce cas, que est la probabilit davoir un
faux positif.
La deuxime faon de se tromper est de commettre lerreur [ou risque] de deuxime espce, not , qui est
la probabilit de ne pas rejeter HO alors quelle est fausse. On dit, dans ce cas, que est la probabilit davoir
un faux ngatif.
HO est vraie
Ne pas rejeter HO
Rejeter HO
HO est fausse
Erreur de 2me espce
Erreur de 1re espce
Lidal serait que ces deux erreurs soient nulles, mais puisque lon ne dispose que dun nombre fini dobservations, il
faut faire un choix.
Le risque tant difficile { valuer, voire impossible, seul le risque est utilis comme critre de dcision.
Note : On accepte une hypothse en refusant sa fausset et non en acceptant sa vrit.
I.3. Quelques tests statistiques de normalit

Dans son article de 194410, qui a marqu une tape dcisive dans le dveloppement de lEconomtrie, crit
dans lobjectif de briser la rticence de ses contemporains vis--vis de lapplication des mthodes
statistiques aux donnes conomiques, Haavelmo a avanc deux thses. Dabord, il a dfendu l'ide que
l'emploi des mesures statistiques telles que les moyennes, les carts-type, les coefficients de corrlation,
des fins d'infrence n'a rellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu
importe la vraie nature des faits conomiques, il suffisait, pour les analyser, de faire comme si les donnes
conomiques taient gnres par une loi de probabilit qu'il fallait identifier de faon adquate.
Avant donc toute tude formelle, le travail de lconomtre est de tester ladquation ou la conformit
dune distribution observe avec une distribution thorique associe une loi de probabilit. Parmi ces
tests dadquation, la conformit { la loi normale est le test le plus utilis, car elle sous-tend la plupart de
tests paramtriques utiliss en Economtrie. A titre de rappel, pour une distribution gaussienne, 2
contiennent 95% des observations.
Les nombreux tests11 de normalit dune distribution que fournit la littrature peuvent se regrouper en
deux familles : Les tests informels et les tests formels.
Si n est le nombre dobservations
Tests informels
Histogramme des frquences

tuyau dorgue]
Box plot [ou Bote--pattes]
QQ plot [ou droite de Henry]
Tests formels
[ou
Test de Jarque Bera
Test de Shapiro Wilk

Test K2 dAgostino Pearson
En termes defficacit
Si n > 88
Si n 50
Si n 20
Les tests informels donnent une prsomption tandis que les tests formels apportent une approche plus rigoureuse et
objective.
Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.
10
11
Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118.
Il existe une batterie de test de normalit, ici nous ne reprenons que quelques uns.
12

. Le Box plot
Synonyme : Bote pattes, Bote moustache, Diagramme en boites, Box and Whiskers Plot
Le Box plot, invent par Tukey en 1977, est un outil graphique trs pratique qui permet de caractriser
une distribution en fournissant un rsum riche dinformations sur sa dispersion et son asymtrie.
Du fait quil renseigne sur lasymtrie dune distribution, le Box plot est galement utilise comme test de
normalit.
Les tapes suivre dans sa construction peuvent tre rsumes comme suit :
a. Porter sur une chelle les valeurs calcules suivantes : Q1, Q2, Q3, Min xi et Max xi
b. Construire la bote : - La longueur de la bote est donne par lEIQ
- La largeur de la bote est fixe priori.
c. Calculer la longueur des moustaches ou des pattes [infrieure et suprieure] :
Pour savoir jusquo vont les moustaches, on calcule deux valeurs adjacentes :
Frontire Basse [FB]= Q1 1.5EIQ
Frontire Haute [FH]= Q3 + 1.5EIQ
Selon Tukey, la valeur 1.5 serait plus pragmatique.
Pour la longueur de la moustache infrieure : prendre, parmi les valeurs xi prises par X, la valeur minimale
xb directement suprieure FB, soit xb = min {xi| xi FB}.
Pour la longueur de la moustache suprieure : prendre, parmi les valeurs xi prises par X, la valeur maximale
xh directement infrieure FH, soit xh = max {xi| xi FH}.
A retenir :
- Pour une distribution symtrique, Q2 divise la bote exactement en deux parties gales.
- Pour une distribution symtrique, Q2= .
Illustration
Considrons lexemple suivant :
X
6
7
8
Q1 = 8.5
Q2 = 12
FB = 8.5 (1.5)7 = 2
9
10
11
12
Q3 = 15.5
EIQ = 7
FH = 15.5 + (1.5)7 = 26
13
14
15
16
17
18
Min xi = 6
et
Max xi= 18
= 12
Etendue = 10 Xb = 6 Xh =18
Etendue
*
FB
Min xi
Xb
Q1
Q2
EIQ
La croix lintrieur de la bote reprsente la moyenne.
Q3
Max xi
Xh
FH
13
Il ressort, puisque Q2 spare la bote en deux parties gales et que les queues ont une longueur identique,
que la distribution est symtrique, ce qui est une prsomption de normalit. De plus la mdiane (Q2) est
gale la moyenne.
Note : la Botepattes permet galement de dtecter les valeurs aberrantes ou singulires [dviants ou
atypiques ou encore outliers]. Aprs avoir construit le Box plot, est valeur aberrante celle situe au-del des
pattes.
. Le test de Jarque-Bera [JB]
Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalit les
plus populaires dans les milieux acadmiques. Mais la remarque { faire, dores et dj{, est quil est
particulirement appropri pour grand chantillon, soit n > 88.
Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste { ce quil
permet de conclure { la fois sur lasymtrie et limportance des queues [aplatissement] dune distribution.
Les hypothses du test sont :
H0 : Normalit
H1 : Non normalit
Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une distribution
du Khi deux 2 { degrs de libert avec le risque davoir un faux positif [ou seuil de signification] = 5%.
La statistique du test est calcule comme suit :
JB = n
o n est la taille de lchantillon, S le Skewness et K la Kurtosis.

Valeur lue dans la table de la loi du Khi carr deux degrs de libert
Seuil
1%
5%
9.210
5.991
Valeur
Critre de dcision : Si JB la valeur du 2(2) de la table au seuil , alors RH0 de normalit.

. Le test de Shapiro-Wilk
Le test de Shapiro Wilk, propos en 1965 par Samuel Shapiro et Martin Wilk, est considr dans la
littrature comme lun des tests de conformit { la loi normale les plus fiables et les plus efficaces,
particulirement pour petits chantillons [n 50] 12. Ce test est bas sur la statistique W, calcule comme
suit :
W=
12
Lire par exemple Royston (1982), Palm (2002).
14
o
n : est la taille de lchantillon
ai : sont des valeurs lues dans la table des coefficients

de Shapiro et Wilk, connaissant n et lindice i.
: est la partie entire du rapport

x(i) : correspond la srie des donnes tries en ordre
croissant

H0 : la variable X est gaussienne
H1 : la variable X est non gaussienne
La statistique W est confronte une valeur lue dans la table des valeurs limites de W propose par
Shapiro et Wilk, avec n le nombre dobservations et au seuil [5% en gnral].
Critre de dcision : Si W < WTable(n) au seuil , alors RH0 [la variable est non gaussienne]13.
Note : Les deux tables utilises pour mener ce test sont reprises en annexe.
I.3. Trois piliers de lconomtrie

Lconomtrie se fonde sur trois piliers { savoir :
. La thorie conomique ;
. Les donnes ;
. Les mthodes.
Les trois piliers de lconomtrie
Les donnes
La thorie conomique
De par sa nature lEconomtrie est

intimement lie la thorie
conomique qui lui fourni les
modles et thories quelle teste.
Pour
tester
les
thories,
lEconomtrie utilise les donnes
observes, les informations fournies
par un chantillon.
Aujourdhui
encore,
malgr
lmancipation de lEconomtrie
depuis le fameux article de 1980 de
Sims, lon ne peut trancher en
dfaveur
du
mariage
thorie
conomique Economtrie.
Lconomtrie a principalement
recours trois types et deux formats
de donnes.
13
Ce sont les mthodes statistiques qui

permettent de mettre en uvre et
dexploiter un modle partir
dinformations
provenant
de
lchantillon.
La mthode la plus populaire en
Economtrie est celle des moindres
carrs ordinaires.
Trois types de donnes :
Selon Ado et Davidson [1998],

L'conomtrie est prcisment le
moyen qui permet au discours
conomique d'chapper la vacuit
de son formalisme, en permettant
une mise en correspondance des
thories et des faits conomiques.
C'est elle qui permet de confirmer ou
Les mthodes
Chroniques [times series en

anglais], on parle galement des
sries chronologiques ou sries
temporelles, notes Xt : sont de
donnes indices par le temps.
Ex. Le PIB de la RDC de 2000
2010.
Lire TSASA Jean Paul (2012) pour les illustrations.
En
recourant
aux
mthodes
statistiques,
et
partir
dinformations livres par le monde
rel, lconomtre poursuit un triple
objectif :
Quantifier et tester les thories

Faire des prvisions
Evaluer lefficacit des mesures
de politique conomique

d'infirmer les modles thoriques, du
moins ceux qui admettent une
reprsentation conomtrique.
Donnes en Coupe longitudinale

[cross section en anglais], on
parle aussi de coupe instantane,
notes Xi : font rfrence aux
donnes observes au mme
moment, pour des individus
diffrents. Ex. Le PIB en 2009 de
tous les pays de lAfrique
Centrale.
Donnes en Panel [pooling en
anglais], on parle aussi des
donnes croises, notes Xit :
font rfrence la combinaison
de deux premiers types. Ex. Le
PIB de 2000 2010 de tous pays
de lAfrique Centrale. On parle
aussi de cohorte, lorsque
lchantillon sond reste le
mme dune priode { lautre.
Deux formats des donnes :
Quantitatives [ex : PIB, Taux

dinflation, etc.]
Qualitatives [ex : paix, sexe,
religion, niveau dtude, etc.]
15
LEconomtrie na donc pas pour

objet dnoncer la thorie mais de la
vrifier.
16
I.4. Modle conomique versus modle conomtrique

. Modle conomique
Selon Barbancho14, un modle est lexpression mathmatique dune certaine thorie conomique.
Lexemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. Daprs cette loi,
en moyenne et la plupart du temps lorsque le revenu dun individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre { laugmentation de son revenu. Mathmatiquement, si
on note la consommation par Ct et le revenu par Yt, cette loi peut tre spcifie comme suit :
Ct= 0 + 1Yt
[avec 1 : propension marginale { consommer, 0 < 1 < 1]
En gnral, le modle spcifi par lconomiste est dfini comme tant une maquette de la ralit ou dun
phnomne sous forme dquations dont les variables sont des grandeurs conomiques.
A ce sujet, Lester C. Thurow note ceci : Les quations dcrivent quoi ressemblerait le monde rel sil
ressemblait la thorie .
. Modle conomtrique
Toujours selon Barbancho, un modle conomtrique nest autre chose quun modle conomique qui
contient les spcifications ncessaires pour son application empirique. Cest donc le modle conomique
auquel on ajoute un terme derreur ut.
Ct=0 + 1Yt + ut
[modle spcifi par lconomtre]
La premire partie de ce modle [0 + 1Yt] constitue sa partie systmatique et la deuxime [ut] sa partie
stochastique ou alatoire.
Il convient de noter galement que le terme derreur ut [bruit, perturbation ou ala] dnote de la diffrence
entre lconomiste et lconomtre. Il synthtise linfluence sur Ct [variable explique] de toutes les autres
variables oublies et des erreurs ventuelles de spcification de la forme fonctionnelle dans le modle
spcifi par lconomiste. De plus, sa prsence dans le modle rend les paramtres 0 et 1 inconnus, on ne
sait plus les calculer, il faut donc les estimer.
14
Cit par Kintambu Mafuku (2004).
17
.II.
THEORIE DE LA CORRELATION
Lanalyse de la corrlation a pour objet de prsenter les mesures statistiques destines { rendre compte du
sens et de la force de la liaison mathmatique qui peut exister entre deux variables quantitatives X et Y. Il
faut, dores et dj{, noter que dans ce cadre, la position des variables est symtrique. Lanalyse ne permet
pas de distinguer variable endogne de la variable exogne.
Loutil graphique diagramme de dispersion ou graphique nuage de points est le plus adapt et indiqu
pour dbuter ltude de la corrlation. Aprs lavoir ralis, la forme du nuage des points renseigne
partir dun simple coup dil sur le type dune ventuelle liaison entre X et Y. Plusieurs situations sont
possibles :
Figures A. Relations linaires, de gauche droite, positive et ngative.
600
600
500
500
400
400
300
300
200
200
100
100
0
0
500
1000
1500
Figures B.1. Relation non linaire monotone
2000
500
1000
Figures B.2. Relation non linaire

non monotone
10
8
10
-100
2
0
0
0
10
15 -4
-2
2000
Figures B. 3. Absence de liaison
15
1500
120
100
80
60
40
20
0
-50 -20 0
-40
-60
-80
50
100
150
Lanalyse du plot donne certes une ide sur le sens et le type dassociation entre X et Y, mais elle ne permet
pas de quantifier son intensit.
Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours
au calcul de la covariance. Si on note par n la taille de lchantillon et i le numro de lobservation, la
covariance empirique15 entre X et Y est calcule par la formule :
Cov (X, Y) =
15
La covariance empirique tant un estimateur non biais de la covariance.
18
Lide est que si X et Y covarient, leur covariance devrait tre grande. Elle serait modrment faible si les
deux variables ne covarient pas.
Malheureusement, comme mesure du degr de dpendance entre X et Y, la covariance prsente la
faiblesse dtre fortement influence par les units de mesure des variables en prsence. Cest cette limite
qui a conduit au dveloppement des coefficients de corrlation.
II.1. Coefficient de corrlation de Bravais Pearson

Le coefficient de corrlation linaire de Bravais Pearson, not rXY, est un coefficient paramtrique qui
donne la mesure du degr de liaison linaire entre deux variables quantitatives X et Y normalement
distribues. Il est donn par le rapport entre leur covariance et le produit non nul de leurs carts types.
Ainsi, il standardise la covariance et la corrige de linfluence des units de mesure des variables.
Formellement, le rXY est donn par la formule :
rXY =
[2.1]
Si lon considre les carts { la moyenne arithmtique 16, la relation [2.1] peut galement scrire comme
suit :
rXY =
[2.2]
Proprits de la covariance et proprits du coefficient de corrlation linaire

Proprits de la covariance
Proprits du rXY
Commentaires
Cov (X, Y) = Cov (Y, X)
rXY = rYX
Cov (X, X) = Var (X)
rXX = 1
Cov (k, X) = 0
rkX = 0
Comme la covariance, le rXY est symtrique.

La corrlation entre une variable et ellemme est gale { lunit.
La corrlation entre une constante et une
variable est nulle.
Le coefficient de corrlation linaire est un
nombre sans dimension dont lintervalle de
variation est : [1, +1]17.
1 rXY 1
. Hypothses fortes au calcul du rXY

Le calcul du coefficient de corrlation linaire de Bravais Pearson entre les variables X et Y nest adapt
quau strict respect des hypothses suivantes :
Les variables X et Y doivent tre quantitatives ;

Les variables X et Y doivent tre sont gaussiennes ;
La relation entre X et Y doit tre linaire 18 ;
Note : Lorsque la liaison entre X et Y est non linaire mais monotone, le r XY ne devient pas hors de propos.
Seulement, dans ce cas despce, il donne des informations sur lexistence de la liaison, mais estime mal son
intensit. Noublions pas que le coefficient de corrlation linaire sert avant tout { caractriser une liaison
linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur sur lexistence et lintensit de la
relation entre variables considres.
16
La somme des carts la moyenne arithmtique est toujours gale 0, soit

On peut aisment dmontrer que par construction, le rXY reste compris entre -1 et 1.
18
Cette information est livre par le graphique nuage des points.
17
= 0.
19
. Test sur le coefficient de corrlation de Bravais - Pearson

Puisque le travail se fait sur un chantillon, aprs calcul et avant toute interprtation, le rXY doit tre soumis
un test de significativit qui permet de vrifier si la corrlation calcule existe bel et bien au sein de la
population.
H0 : XY = 0
[hypothse dabsence de corrlation]
H1 : XY 0n
[hypothse dabsence de dcorrlation]
XY est la corrlation thorique, inconnue au niveau de la population, r XY est la corrlation empirique

estime { partir dinformations fournies par lchantillon.
Sous H0, on dmontre que la statistique du test suit une distribution de Student au seuil [5% sauf
indication contraire] et (n 2) degrs de libert.
Le test est de la forme :
Rejet H0 si
> t/2 ; (n 2) [valeur lue dans la table de Student]
. Signification clinique du coefficient de corrlation de Bravais - Pearson

La signification clinique ou linterprtation du rXY nest valable que si, aprs test, on rejette lhypothse de
dcorrlation.
Le travail dinterprtation dun coefficient de corrlation linaire se fait toujours en deux temps : une
interprtation par rapport au signe/sens de la liaison et une interprtation par rapport au degr de
dpendance.
A. Interprtation par rapport au signe
B. Interprtation par rapport lintensit
Si rXY > 0, X et Y sont positivement corrles [la

relation linaire entre X et Y est positive].
Si rXY < 0, X et Y sont ngativement corrles [la
relation linaire entre X et Y est ngative].
Si rXY = 0, X et Y sont non corrles [pas de liaison
linaire, mais possibilit dune liaison dun autre
type].
Si rXY = 1, le lien linaire entre X et Y est parfait.

Dans ce cas, lune des variables est fonction
affine de lautre, les n points (xi, yi) sont aligns.
Si 0.80 < rXY < 1, le lien linaire est trs fort.
Si 0.65 < rXY < 0.80, le lien linaire est fort [lev].
Si 0.50 < rXY < 0.65, le lien linaire est modr.
Si 0.25 < rXY < 0.50, le lien linaire est faible.
Si 0.025 < rXY < 0.25, le lien linaire est trs faible.
Si rXY proche de 0, alors il y a absence de lien
entre X et Y.
Note : Le coefficient de corrlation linaire entre deux variables quantitatives gaussiennes indpendantes
20
est nul, mais la rciproque nest pas toujours vraie. Donc r XY = 0 ne signifie pas toujours quil y a
indpendance entre X et Y. Cela peut tout simplement vouloir dire quil y a absence dune liaison
linaire entre les variables tudies.
Ceci dit, le calcul dun coefficient de corrlation doit toujours commencer par un examen graphique.
Lautre faiblesse majeure du coefficient de Bravais Pearson est dtre trs sensible aux points aberrants.
II.2. Coefficient de corrlation de rang de Spearman

Le coefficient de corrlation de Spearman, not XY, est un coefficient non paramtrique qui quantifie,
comme le rXY de Bravais Pearson, le degr dassociation linaire entre deux variables quantitatives. Il est
particulirement appropri lorsquau moins une de deux variables X et Y nest pas normalement distribue.
Son calcul ncessite que les donnes soient transformes en rang. Le rang de X est not par Ri et celui de Y
par Si. Le XY de Spearman nest rien dautre que le rapport entre la covariance (Ri, Si) et le produit non nul
de leurs carts-types. Il est donc un cas particulier du coefficient de corrlation de Bravais Pearson.
En tenant compte de certaines proprits de rang, le XY de Spearman peut tre calcul de manire plus
simple par la formule :
XY = 1
[2.3]
o Di = Ri - Si et n = nombre dobservations
Avantages du XY de Spearman sur le rXY de Bravais Pearson
Le rXY de Bravais - Pearson
Le XY de Spearman
A propos de la normalit
Pour calculer rXY, les variables doivent tre Le XY lve lhypothse de normalit. De plus, dans
gaussiennes.
le cas des variables distribues normalement, le XY
reste adapt car il fournit les mmes rsultats que
le rXY de Bravais Pearson.
Concernant une liaison non linaire monotone
Le rXY donne une ide sur le sens de la liaison mais Dans ce cas, le XY est appropri, il estime mieux
estime mal sa force.
que le rXY ce type de liaison.
La prsence des points atypiques
Le rXY est fortement influenc par la prsence des Le XY rsiste aux points aberrants. Dans ce cas, il
dviants [points aberrants].
est donc prfr au rXY.
Note : Lorsque la liaison entre les deux variables tudies est non linaire et non monotone, les deux
coefficients rXY et XY ne sont plus adapts. On peut soit transformer les donnes avant de les
calculer ou carrment, lorsquon dispose de plusieurs valeurs de Y pour chaque valeur de X ou
linverse, calculer le rapport de corrlation.
La dmarche du test statistique sur le XY de Spearman est la mme que celle sur le coefficient de
corrlation de Bravais Pearson.
Remarques importantes sur le calcul du XY de Spearman
Le calcul du coefficient de corrlation de Spearman exige que les donnes soient remplaces par leurs
rangs. Et en prsence dex aequo dans les donnes, on leur affecte un rang moyen, donn par la moyenne
arithmtique de leurs rangs respectifs.
21
Mais lorsquon compte plusieurs ex aequo, aprs avoir remplac les donnes par leurs rangs, il est conseill
de faire subir au coefficient de Spearman quelques corrections ou simplement de lui prfrer le coefficient
de Bravais-Pearson, mais calcul sur les rangs. Dans ce recueil, nous optons pour cette dernire option.
En rsum, lestimation dun coefficient de corrlation suivra toujours [sauf indication contraire], dans
lordre, les cinq tapes suivantes :
(i)
(ii)
(iii)
(iv)
(v)
Test de linarit [utiliser un diagramme de dispersion]

Test de normalit [choisir le plus appropri connaissant n]
Choix et estimation dun coefficient de corrlation
Test de significativit statistique sur le coefficient calcul
Interprtation ou signification clinique du coefficient estim [valable seulement si H0 est rejete]
Critre synthtique de choix dun coefficient de corrlation

Informations fournies par les donnes
Type de liaison
Normalit
linaire
Variables normales
Lune au moins de deux

variables est non normale
Non linaire monotone Variables normales ou non
Prsence des points atypiques
Coefficient de corrlation appropri [en termes

de robustesse]
- Coefficient rXY de Bravais Pearson
- Coefficient XY de Spearman
linaire
- Coefficient XY de Spearman
II.3. Limites de la corrlation

Les coefficients de corrlation prsents dans ce chapitre prsentent essentiellement quatre faiblesses,
savoir :
La mesure ne concerne quune relation linaire. Le coefficient de corrlation linaire sert avant
tout { caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur,
surtout sur lintensit de la liaison entre variables considres.
La mesure ne concerne que les variables quantitatives. En prsence des variables qualitatives
comme la paix, la religion, , les deux coefficients prsents ci-haut ne sont plus adapts.
La corrlation nest ni impact ni causalit. Lobjet de la corrlation nest pas dtablir une causalit
mais simplement de rendre compte du sens et du degr dassociation ventuelle entre variables.
La corrlation peut tre fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une
corrlation leve ne peut tenir qu{ un facteur confondant ou artefact. En ralit, les deux
variables peuvent simplement tre lis un mme phnomne - source : une troisime variable
dont il faut neutraliser leffet.
Les alternatives face ces faiblesses sont notamment la corrlation pour variables qualitatives, le
coefficient de corrlation partiel, le rapport de corrlation, la rgression linaire et non linaire, la causalit,
la cointgration, etc.
22
Exercices rsolus sur la thorie de la corrlation

Exercice 1
Un chercheur dsire examiner la relation quil peut exister entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y). X est mesur en laboratoire { laide dun test dhabilit en lecture alors
que Y est estim par les sujets eux-mmes. 10 sujets ont t chantillons. Les rsultats sont :
X
20
40
30
35
15
40
Estimer la corrlation entre X et Y [passer par les cinq tapes]

Solution de lexercice 1
Etape 1. Test de linarit
10
8
Ce graphique fait tat dune association

linaire positive entre X et Y.
6
4
2
0
0
10
20
30
40
50
Etape 2. Test de normalit

Puisqutant appropri pour petit chantillon, nous appliquons le test de Shapiro Wilk.
La statistique calculer est : W =

Test sur la variable X
i
X(i)
ai
20
-15
225
0,5739
35
20,0865
-15
225
0,3291
35
11,5185
-15
225
0,2141
30
6,423
40
-15
225
0,1224
25
3,06
30
15
-5
25
0,0399
0,1995
35
20
30
10
100
35
15
225
15
40
20
400
10 40
40
20
400
=20 ; n=10 ; =5
2050
41,2875
W=
= 0.83154032
Wtable =0.842 [ 5%, pour n=10]
Puisque W<Wtable, RH0. La variable X est non
gaussienne.
23
Test sur la variable Y

i
y(i)
ai
-4
16
0,574
4,5912
-3
0,329
1,9746
-3
0,214
1,2846
-2
0,122
0,4896
0,04
10
16
0
5 ; n=10 ; =5
8,34
W=
= 0.915205263
Wtable =0.842 [ 5%, pour n=10]
Puisque W>Wtable, Non RH0. La variable Y est
gaussienne.
76
Etape 3. Choix et estimation dun coefficient de corrlation

Eu gard aux rsultats des tests de linarit et de normalit [X est non gaussienne], le coefficient de
corrlation appropri dans ce cas est le XY de Spearman. Les calculs sont confins dans le tableau ci-aprs :
X
Rang de X [Ri]
Rang de Y [Si]
Di = R i - Si
Di2
20
5,5
0,5
0,25
2,5
1,5
2,25
2,5
2,5
40
9,5
2,5
6,25
30
8,5
-1,5
2,25
35
10
-2
2,5
-1,5
2,25
2,5
2,5
15
5,5
-0,5
0,25
40
9,5
8,5
18,5
XY = 1
= 0. 887878788
Note : Deux nombres au moins identiques ont mme rang qui est donn par la moyenne arithmtique de leurs rangs
respectifs.
Etape 4. Test de significativit statistique

La statistique du test est : tcal=
= 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0
dabsence de corrlation entre X et Y, le coefficient de corrlation calcul est statistiquement significatif].

Etape 5. Signification clinique [interprtation]
Il existe bel et bien une corrlation linaire positive trs forte entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y) au sein de la population tudie.
24
Exercice 2
Montrer rigoureusement que par construction le coefficient de corrlation linaire est toujours comprise
entre - 1 et 1 [Utiliser la formule de Bravais Pearson].
Si le lien linaire entre X et Y est parfait, Y (X) scrirait comme une fonction affine de X (Y) :
Y = + X
Dune part, on aura :
Y = X
Dune part, on aura :
Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}
Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}
= E{[X E(X)][ + X E( + X)]}
= E{[X E(X)][ X E( X)]}
= E{[X E(X)][ + X E(X)]}
= E{[X E(X)][ X + E(X)]}
= E{[X E(X)] [X E(X)]}
= E{[X E(X)] [X E(X)]}
= [X E(X)]
= [X E(X)]
= Var(X)
Dautre part, on a ceci :
= Var(X)
Dautre part, on a ceci :
Var(Y) = E[Y E(Y)] = E[ + X E(X)]

= 2var(X)
Et par consquent,
Var(Y) = E[Y E(Y)] = E[ X + E(X)]

= 2var(X)
Et par consquent,
rXY =
rXY =
=1
Le domaine de dfinition de rXY est donc [ 1, + 1]
Exercice 3
Le tableau ci-aprs renseigne sur lvolution de loffre de jus de banane (X) et son prix en USD (Y).
N
10
11
10
11
14
12
Travail faire :
- Calculer le coefficient de corrlation appropri.
- Tester sa significativit statistique
- Evaluer sa signification clinique
1. Test de linarit
10
8
6
4
2
0
0
10
15
Le diagramme de dispersion tmoigne de lexistence dune association linaire positive entre X et Y.
=1
25
2. Test de normalit
Test sur la variable X
i
ai
10
-4,5454545
20,661157
0,5601
10
5,601
-3,5454545
12,5702479
0,3315
2,3205
-2,5454545
6,47933884
0,226
1,13
11
-1,5454545
2,38842975
0,1429
0,4287
14
-0,5454545
0,29752066
0,0695
0,0695
-0,5454545
0,29752066
0,4545455
0,20661157
W=
12
10
1,4545455
2,11570248
Wtable=0,850
11
2,4545455
6,02479339
10
12
3,4545455
11,9338843
11
14
5,4545455
29,7520661
92,7272727
= 5,5
9,5497
= 0,983494579
Puisque W >Wtable, alors Non RH0. La variable X

est normalement distribue.
= 8,545454545 ; n =11 ;
Note : n tant impair, on na retenu que la partie entire du ratio , soit 5.
Test sur la variable Y

i
-1,818181818
3,30578512
0,5601
2,2404
-0,818181818
0,66942149
0,3315
0,663
-0,818181818
0,66942149
0,226
0,452
-0,818181818
0,66942149
0,1429
0,1429
-0,818181818
0,66942149
0,0695
0,0695
0,181818182
0,03305785
0,181818182
0,03305785
0,181818182
0,03305785
W=
1,181818182
1,39669421
Wtable=0,850
10
1,181818182
1,39669421
11
2,181818182
4,76033058
ai
0
13,6363636
= 6,818181818 ; n=11 ; = 5,5
3,5678
= 0,933474435
Puisque W >Wtable, alors Non RH0. La variable Y

est normalement distribue.
3. Choix et estimation dun coefficient de corrlation

Les deux variables tant gaussiennes et linairement associes, on peut indiffremment estimer le rXY de
Bravais-Pearson ou le XY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la
mme chose. Aprs calcul, on a les rsultats suivants :
Le rXY de Bravais-Pearson
0,95870624
Corrlation entre X et Y
26
Le XY de Spearman
0,95227273
4. Signification statistique du coefficient calcul

La statistique calcule est :
= 10.1129979 pour le rXY de Bravais-Pearson, et
= 9.3589914, pour le
XY de Spearman.
Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262
Conclusion : le coefficient de corrlation calcul est statistiquement non nul.
5. Signification clinique
il existe bel et bien une corrlation linaire positive trs forte entre quantit offerte de jus de banane et son
prix, ce qui est conforme la moi de loffre.
Exercice 4
A partir dun chantillon de 27 objets, on a trouv que la valeur dun coefficient de corrlation linaire tait
0.4. Peut-on en conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre
significativement de la valeur zro ? Quadviendrait la rponse obtenue prcdemment si lon considre un
seuil de signification de 0.01.
Lexercice livre les informations suivantes : rXY =0.4 ; n=27 ; = 0.05.
Aprs calcul, on a tcal=2.1821789. En considrant le seuil donn, = 0.05, et 25 degrs de libert, la
table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, un seuil de signification
de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro.
Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrlation devient non significatif.
Exercice 5
Soit le jeu de donnes normalement distribues ci-dessous.
Bloc I
Bloc II
Bloc III
Bloc IV
10
8,04
10
9,14
10
7,46
6,58
6,95
8,14
6,77
5,76
13
7,58
13
8,74
13
12,74
7,71
8,81
8,77
7,11
8,84
11
8,33
11
9,26
11
7,81
8,47
14
9,96
14
8,10
14
8,84
7,04
7,24
6,13
6,08
5,25
4,26
3,1
5,39
19
12,5
12
10,84
12
9,13
12
8,15
5,56
4,82
7,26
6,42
7,91
5,68
4,74
5,73
6,89
27

Travail demand :
(i)
(ii)
(iii)
(iv)
Estimer pour chaque cas le coefficient de corrlation de Bravais Pearson

Quel constat se dgage t-il de ces calculs ?
A prsent, raliser un graphique nuage des points pour chaque cas. Quelle leon peut-on tirer ?
Calculer le coefficient de Spearman pour le bloc IV. Quel avantage prsente-t-il ?
(i)
Aprs calcul, on a le coefficient de Bravais-Pearson ci-aprs, pour chaque cas :

Bloc I
0,81642052
rXY
(ii)
(iii)
Bloc II
0,81623651
Bloc III
0,81628674
Bloc IV
0,81652144
Pour les 4 blocs, on obtient pratiquement la mme valeur du coefficient de corrlation de BravaisPearson, soit rXY = 0.82. Ce qui semble traduire dans ces diffrents cas, lexistence dun lien linaire
positif trs fort.
Graphique nuage ds points pour chaque bloc
Bloc I
Bloc II
15
10
10
Bloc III
Bloc IV
15
15
10
10
5
5
0
0
0
10
20
0
0
10
20
10
15
0
0
10
La leon tirer est que lestimation du coefficient de corrlation de Pearson doit toujours saccompagner dun
examen graphique. Car, comme on le voit, le coefficient estim rXY = 0.82, ne correspond, en toute rigueur,
quau premier graphique. Le deuxime, par exemple, fait tat dune liaison fonctionnelle presque parfaite
entre X et Y dont le rXY semble sous-estimer lintensit. Quant au troisime et au quatrime graphiques, il y a un
point atypique qui fausse compltement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point
aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisime et quatrime graphiques, le
coefficient de corrlation de Pearson qui tait de r XY=0.82, devient respectivement de 0.99999655 et de 0
[puisque rkX=0].
(iv)
On remarquera quau bloc IV, la variable X prsente plusieurs ex aequo, nous avons donc calcul le
coefficient de Bravais-Pearson sur les rangs.
Coefficient de Bravais-Pearson calcul sur les rangs
Bloc IV
Lien entre X et Y
0.5
A comparer au coefficient de Pearson, le coefficient de rang prsente lavantage de rsister aux points
atypiques.
20
28
Exercice 6
Voici un chantillon de deux variables gaussiennes :
X
-2
-1
Travail faire :
- Estimez le coefficient de corrlation de Bravais - Pearson
- A quoi renvoie ce rsultat ?
- Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle
nuance pouvez-vous donc formuler dans ce cas ?
- Les deux variables tant supposes gaussiennes par lexercice, et puisque le test de linarit ici ne fait pas un
pralable, on passe directement lestimation du rXY comme prsente dans le tableau ci-dessous :
Moyenne
Xi
Yi
-2
-2
-4
-1
-1
-1
-2
-1
-1
10
14
(Xi
(Yi )2
Somme
(Xi )(Yi
2
rXY = 0
- rXY = 0 signifie que les variables X et Y seraient non corrles [indpendance]

- Le diagramme de dispersion des couples (xi, yi) est :
5
4
3
2
1
0
-3
-2
-1
Il ressort de ce diagramme de dispersion quil existe bel et bien une liaison [de type non linaire] entre les
variables X et Y.
La nuance faire, au vu de ces rsultats, est quun coefficient de corrlation de Bravais Pearson nul ne
devrait pas toujours sinterprter comme une absence de relation entre variables en cause. La meilleure
interprtation serait que les deux variables tudies sont non linairement corrles, car un r XY =0 laisse
toujours la possibilit dexistence, entre les variables considres, dune liaison dun autre type.
29
Exercice 7
A Washington, un journaliste a dcouvert quil existe une trs forte corrlation entre le fait davoir un nid de
cigognes sur sa demeure et le fait davoir des enfants. Do il conclut que les cigognes apportent les bbs.
Quelle remarque pouvez-vous faire une telle conclusion ?
La remarque principale formuler ce type de corrlation que rien ne peut expliquer ou qui en ralit tient
un autre phnomne-source est que la corrlation peut tre fortuite ou artificielle. Par ailleurs, bien
analyser les choses, tenant compte des ralits de Washington, la prsence dun nid de cigognes sur le toit
signifierait plutt que la famille qui y habite est aise et donc dispose, financirement, avoir plus denfants.
Exercice 8
En rsolvant un TP de statistique 1 sur le calcul du coefficient de corrlation linaire, un tudiant de G1 FASE
fournit le tableau suivant :
Xi
Yi
Xi
80
32
-20
100
50
115
110
Yi
(Xi )*(Yi )
(Xi )
(Yi )
-18
360
400
324
62
15
12
180
225
144
56
10
60
100
36
70
-30
-42
1260
900
1764
125
80
25
30
750
625
900
105
62
12
72
36
144
90
50
-10
100
110
62
10
12
120
100
144
95
38
-5
1
-12
0
60
2862
25
2511
144
3600
=100
=50
rXY =
= 0.9519
Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez quil y a erreur de calcul. Par quoi la
voyez-vous ?
Par la somme des carts de la variable X sa moyenne arithmtique. Cette somme est forcment gale zro,
une valeur diffrente indique tout simplement une erreur de calcul.
Exercice 9
Soient les donnes sur les variables X et Y reprises dans le tableau ci-aprs et le nuage de points
correspondant :
12
10
8
1,1
1,25
1,5
2,25
6,8
8,3
9,3
9,81
9,85
6
4
2
0
0,9
1,4
1,9
2,4
30
Estimer les coefficients de corrlation de Bravais-Pearson et de Spearman, puis commenter.

Les calculs sont synthtiss dans le tableau ci-aprs :
X
xy
Ri
Si
Di
Di
-0,52
-4,84
2,50
0,2669
23,46
1,1
6,8
-0,42
-1,04
0,43
0,1736
1,09
1,25
8,3
-0,27
0,46
-0,12
0,0711
0,21
1,5
9,3
-0,02
1,46
-0,02
0,0003
2,12
9,81
0,483
1,97
0,95
0,2336
3,87
2,25
9,85
0,733
2,01
1,47
0,5378
4,03
5,21
1,28
34,77
Moyenne
1,52
7,84
rXY = 0,78
XY = 1
Les calculs montrent simplement que le XY de Spearman est prfr au rXY de Bravais-Pearson lorsque la
liaison entre X et Y est non linaire mais monotone, car comme on le voit, le r XY a sous-estim lintensit
dune relation non linaire certes, mais visiblement parfaite entre X et Y.
Exercice 10
[Il y a au moins une rponse exacte, cocher, la question suivante].
Le coefficient de corrlation linaire entre deux variables statistiques :
(a) ne peut tre calcul que si les deux variables sont quantitatives
(b) est un nombre positif ou nul
(c) nest gal zro que lorsque les variables sont indpendantes
(d) est un nombre sans dimension.
Solution de lexercice 10 : (a), (b) et (d)
31
.III.
MODELE DE REGRESSION LINEAIRE SIMPLE

III.1. Modlisation et hypothses
La corrlation, comme dveloppe au chapitre prcdent, sert avant tout { quantifier le degr dassociation
linaire entre deux variables quantitatives dont la position, dans ltude, est symtrique. Elle ne permet
donc ni dtablir une causalit, ni de mesurer limpact dune variable sur lautre.
Dans le modle de rgression linaire simple par contre, la position des variables dans lanalyse nest pas
symtrique. On connait, { priori, la variable alatoire qui cause lautre [Y=f(X)] 19, ce qui rend possible la
mesure de limpact ou de la contribution de X dans lexplication de Y. La plupart du temps, et comme le mot
lindique, le modle de rgression linaire simple considre que la variable expliquer Y est une fonction
affine de la variable explicative X. Mathmatiquement, cette dpendance linaire scrit de la sorte :
[3.1]
Yt = 0 + 1Xt
o 0 et 1 sont les paramtres du modle qui permettent de caractriser la relation de dpendance linaire
qui existe chaque date t entre Xt et Yt.
Encadr 2. Fonction affine
Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b
*]
a : est lordonne { lorigine ou lorigine
b : est la pente de la droite ou le coefficient angulaire [directeur]
La fonction affine est appele aussi fonction linaire si a =0
Graphe dune fonction affine
[considrons le cas o a > 0 et b > 0]
La pente dune droite mesure la variation de Y quand
on se dplace le long de la droite en accroissant X
dune unit.
Y
Y = a + bX
E
Gomtriquement, la pente b est donne par :
b = tg () =
Y = Y1 Y0
D
a
Et lquation dune droite passant par deux points, de

coordonnes (X0, Y0) et (X1, Y1), est :
X = X1 X0
Y Y0 = b (X X0)
0
b=
19
Algbriquement, la pente
drivant Y par rapport X :
ou
b=
sobtient
en
[Si donnes discrtes]
Cette information est gnralement fournie par la thorie conomique, ou peut simplement dcouler de lobjectif de
ltude du modlisateur.
32

Sous sa spcification conomtrique, le modle [3.1] scrit comme suit :
[3.2]
Yt = 0 + 1Xt + ut
Dans ce cas de la rgression linaire simple 0 est le terme constant ou lorigine et 1 la pente.
Comme pour la corrlation, avant toute analyse, il intressant de toujours commencer par un examen
graphique travers un diagramme de dispersion du type de relation qui lie les deux variables
considres. Il faut noter, par ailleurs, que le raisonnement qui sera dvelopp dans la suite de ce chapitre,
ne peut sappliquer que si Y peut scrire comme une fonction affine de X.
Considrons le jeu de donnes ci-aprs o un chercheur veut expliquer lhabilit en lecture (Y) de dix sujets
chantillonns par le nombre dheures de lecture par semaine (X). Y est mesure en laboratoire { laide
dun test dhabilit en lecture alors que X est estim par les sujets eux-mmes.
Y
20
40
30
35
15
40
Dun point de vue pratique, rgresser Y sur X prsente un objectif double :
Ajuster un modle linaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il
sagit de faire un ajustement linaire, cest--dire de remplacer le nuage de points des couples (x i,
yi) par une droite qui sy adapte le mieux que possible.
Prdire les valeurs de Y pour les nouvelles valeurs de X.
Pour le jeu de donnes ci-dessus, on a les graphiques suivants :

Graphique nuage de points
Sens de lajustement linaire
50
50
40
40
30
30
20
20
10
10
et
0
0
10
10
Lajustement linaire [ou rgression linaire] consiste donc { tracer une droite dajustement appele
galement droite de rgression qui, sans passer par tous les points du nuage, sy approche le mieux. Pour
a, il faut donc un critre quantifiant la qualit de lajustement.
Le critre auquel on se rfre dans ce chapitre, et trs souvent en conomtrie, est le critre ou la mthode
des Moindres Carrs Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares]
pour dsigner la mme mthode.
20
Certains auteurs ironisent en disant que la mthode nous sert { mettre un chapeau sur nos .
33

Hypothses
Lapplication du critre des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses sur la partie systmatique
Hypothses sur la partie stochastique
H1. Les variables X et Y sont observes sans erreur. Y est
H5. Hypothse de centralit : E(ut)=0
alatoire par lintermdiaire de ut, cest--dire que la seule

erreur possible sur Y provient des insuffisances de X
expliquer ses valeurs dans le modle.
H2. Les variables X et Y doivent tre gaussiennes et
stationnaires en niveau.
H3. Le modle est linaire en ses paramtres tels que
lexprime lquation [3.2].
H4. Le nombre dobservations n doit tre suprieur au
nombre des paramtres estimer.
Cest--dire quen moyenne, linfluence de ut sur le

modle est nulle, ce qui revient admettre que le modle
est correctement spcifi.
H6. Hypothse non autocorrlation des erreurs :
E(uiuj) = 0
i j
Les erreurs ut de diffrentes priodes sont indpendantes
les unes des autres.
H7. Hypothse dhomoscdasticit des erreurs :
E(uiuj) =
i =j
Les erreurs ut ont une variance constante et finie. Plus
explicitement, il sagit dassumer que les variables
explicatives omises dans le modle influent toutes
pratiquement de faon constante sur la variable
explique.
H8. Hypothse de normalit des erreurs: ut (0, )
Cette hypothse est la cl de linfrence statistique. Elle
est donc ncessaire pour mener les tests.
H8. Hypothse dindpendance entre la partie systmatique et la partie alatoire : Cov (Xt, ut)=0.
Cette hypothse signifie que lerreur et les variables explicatives ont une influence spare sur la variable endogne.
Note : (i) Lorsque les hypothses H4, H5 et H6 sont ralises, on dit que les erreurs sont des bruits blancs.
Et lorsquon y ajoute lhypothse H7, on parle des bruits blancs gaussiens.
(ii) Lorsque toutes les hypothses sous-tendant la mthode des MCO sont remplies, le thorme de
Gauss Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], cest--dire quils
sont les meilleurs estimateurs linaires, non biaiss et variance minimale.
III.2. Estimateurs des moindres carrs ordinaires

Le critre des MCO permet dobtenir lquation de la meilleure droite dajustement :
galement droite des moindres carrs.
Xt, appele
Le travail, qui permet dobtenir la droite, consiste choisir les paramtres

et , en utilisant les
informations apportes par lchantillon, de manire rendre minimale la somme des carrs des carts
[rsidus] entre les valeurs observes de Y et ses valeurs prdites par le modle.
Note : Les rsidus, nots et, sont lestimation de lerreur ut sur base de donnes de lchantillon [et =
est donne par : et = Yt .
Mathmatiquement, le critre des MCO se prsente comme suit :
Min S =
=
=
La dtermination de
et
se fait en appliquant les conditions du premier ordre :
=0
[3.3]
=0
[3.4]
], elle
34
En appliquant ces drives partielles, on obtient les quations normales, partir desquelles sont tirs les
estimateurs des MCO :
Y = n
XY =
X +
[3.5]
X2
[3.6]
A partir de [3.5], en divisant toute la relation par n, on dtermine lestimateur de 0 :

=
[3.7]
Aprs substitution de
dans la deuxime quation normale [3.6], on tire lestimateur de 1 :
[3.8]
Un dveloppement mathmatique simple permet dexprimer

entre X et Y et de la variance empirique de X.
=
par le produit de la covariance empirique
[3.9]
En utilisant les variables centres,
est donne par le rapport :
[3.10]
et sont donc les estimateurs des moindres carrs ordinaires.

entirement la dpendance linaire de Y envers X.
est le paramtre dintrt qui capture
1re consquence : La droite des moindres carrs =

+ Xt passe forcment par lorigine
et le point
de coordonnes ( , ), appel le centre de gravit ou le point moyen du nuage de points. Pour le vrifier, il
suffit de raliser une projection pour le point
:
( )=
=(
)+
=
Ce rsultat montre que lorsquon travaille sur les carts { la moyenne arithmtique [variables centres], on
reste sur la mme droite dajustement ce qui implique que la pente
les axes jusquau centre de gravit.
Y45
reste inchange , mais lon soulve
40
35
30
25
( , )
=20
15
10
5
0
0
=5
10
35
Ainsi, en travaillant avec les carts { la moyenne arithmtique, lorigine
peut disparaitre
momentanment, car une petite manipulation suffit le retrouver. La fonction affine

linaire :
=
Xt devient
[3.11]
2me consquence : la droite des moindres carrs a pour quation :
(Xt )
On dmontre aussi que la moyenne arithmtique de
[3.12]
est gale
=
=
=
3me consquence : la somme et donc la moyenne arithmtique des rsidus est nulle dans une rgression
avec constante. En effet :
=
=n -n
-n
= n n(
)-n
=0
4me consquence : il existe un lien entre la pente dune rgression linaire simple
corrlation de Bravais Pearson rXY:
et le coefficient de
= rXY
Lcart type tant non ngatif, la pente
mme signe.
et le coefficient de corrlation de Pearson r XY auront toujours le
Synthse des formules des formules pour lestimation des 0 et 1

Donnes brutes
Modle estim
Variables centres
Xt
=
=
rXY connu
+
Xt
Connaissant lorigine
et le centre de gravit
Equations normales
Formules
Y = n
XY =
X +
Estimateurs
- Tracer la droite des

moindres carrs ;
X
X2
21
= rXY
est la pente de la
droite, soit :
=
=
21
Lestimateur est une formule, et lestimation est la valeur quon trouve en appliquant lestimateur.
36
III.3. Dcomposition de la variance totale et coefficient de dtermination R
Lanalyse de la variance a pour objet de driver un indicateur synthtique, appel coefficient de

dtermination R2, qui value la qualit de lajustement ralis en appliquant le critre des moindres carrs. Il
indique donc dans quelle mesure, la variable explicative X nous permet damliorer nos connaissances sur la
variable endogne Y.
Soit
yt =
+ et
[3.13]
La somme des carrs, dans [3.13], donne :
[3.14]
Aprs dveloppement de la relation [3.14], on obtient lquation danalyse de la variance :

SCT = SCE + SCR
= +
[3.15]
[3.16]
Interprtation de lquation danalyse de la variance :
SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y.
SCE est la somme des carrs expliqus. Elle indique la variation de Y due sa rgression linaire sur X.
SCR est la somme des carrs rsiduels. Elle indique la variabilit de Y non explique par le modle.
Drivation du coefficient de dtermination R
A partir de lquation [3.15], le R correspond au rapport :

2
[3.17]
Ainsi, le R peut tre interprt comme la proportion de variance de Y explique par le modle.
Toujours partir de la relation [3.15], on peut dduire les informations suivantes :
Au meilleur des cas
SCR = 0
SCT = SCE
2
R =1
Le modle est parfait, la droite de rgression passe
par tous les points du nuage.
Intervalle de variation du R
Au pire des cas

SCE = 0
SCT = SCR
2
R =0
Le modle est mauvais, la meilleure prdiction de Y
est sa propre moyenne.
0R
2
Autres formules du R
= 1-
=
=
Avec
la pente de la droite de rgression de X sur
Y, soit = + Yt.
2
Plus le R est proche de 1, meilleur est lajustement, la connaissance des valeurs de X permet de
37
deviner avec prcision celles de Y.

2
Plus le R est proche de 0, mauvais est lajustement, X napporte pas dinformations utiles sur Y.
2
Il faut tout de mme faire attention quant au crdit accorder au R , il doit toujours tre accompagn
dautres tests [Student et Fisher essentiellement] avant de trancher sur la bont dun modle, mais il
reste un critre non ngligeable pour la prvision.
Relation entre le coefficient de corrlation de Pearson et le R
2
2
Pour une rgression linaire simple, et seulement dans ce cas, le R nest rien dautre que le carr du
coefficient de corrlation de Pearson. La dmonstration est relativement simple.
Partant de la relation
= rXY
, on peut tirer rXY et en llevant au carr, on a :

=
=
=
=
=
2
=R
Par consquent rXY = signe ( )
Note : Comme le coefficient de corrlation linaire de Pearson, le R , pour une rgression linaire simple,
est symtrique.
III.4. Test de significativit des paramtres

Etant donn que les valeurs
et
ne sont que des estimations des paramtres 0 et 1 inconnus de la
population, il faut donc sassurer de leur fiabilit statistique. Pour appliquer les tests sur les paramtres, il
est important de connatre leurs variances et la variance rsiduelle.
La dmonstration22 du thorme de Gauss Markov conduit la construction de la matrice symtrique
des covariances variances suivante23 :
Et la variance rsiduelle est donne par :
22
23
Pour les dtails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010).
Appele souvent matrice COVA, note par la lettre Omega ().
38
Test de significativit individuelle

Le test de significativit individuelle porte sur chaque paramtre. Les hypothses du test sont :
H0 : i = 0
[le paramtre est statistiquement nul, non significatif]
H1 : i 0n
[le paramtre est statistiquement non nul, significatif]
Il sagit dun test bilatral [two-tail ou two-sided]24. Il est bas sur la statistique t de Student calcule
comme suit :
=
[3.18]
Sous H0, la formule [3.18] devient :

=
[3.19]
On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n 2) degrs de libert.
Critre de dcision : Si
> t/2 ; (n 2) [valeur lue dans la table de Student], alors RH0, le paramtre
est
statistiquement non nul, la variable lui associe est par consquent non pertinente dans la prdiction de Y.
Intervalle de confiance des paramtres i
Le RH0 revient simplement { refuser que le paramtre i de la population est nul, cela ne signifie nullement
que serait la vraie valeur du paramtre i. Ainsi, on peut, en se basant sur les paramtres estims
assumant un risque donn, construire des intervalles de confiance pour les paramtres i.
et en
Ces intervalles de confiance sont trouvs en appliquant la formule :

I=
t/2 ; (n 2)
[3.20]
Test de significativit conjointe ou globale

Un autre test consiste tester la significativit conjointe de tous les paramtres estims du modle. Cest le
tes bas sur la statistique de Fisher, appel aussi test danalyse de la variance ANOVA. La statistique du test
est donne par le rapport suivant :
F=
[3.21]
2
Une manipulation simple permet dexprimer F en fonction du R comme ci-aprs :
F=
[3.22]
Le test F teste statistiquement la raison dtre du modle. Par ailleurs, partant de la relation [3.22], daucuns
considrent quil teste la significativit du coefficient de dtermination.
24
Cest--dire que H0 est rejete que le coefficient soit positif ou ngatif.
39
Dans le cas dune rgression linaire simple, le test F est confondu au test de significativit individuelle de la
pente. Les deux tests sont bass sur les mmes hypothses, et on dmontre dans ce cas que :
F=
[3.23]
Preuve :
F=
Les hypothses du test sont donc25 :

H0 : 1 = 0
[le modle nest pas bon]
H1 : 1 0n
[le modle est bon]
Comme on le voit, valider la significativit de la pente revient, en mme temps, admettre la bont du
modle.
Sous H0, on dmontre que la statistique F suit une loi de Fisher respectivement 1 et (n-2) degrs de libert.
Critre de dcision : Si F > F [1 ; (n 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on
rejette H0, le modle est bon.
Significativit de la pente versus significativit du r XY de Bravais Pearson
Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient tester rXY = 0.
Cela implique quaccepter la significativit de la pente, cest accepter galement la significativit du
coefficient de corrlation linaire.
En effet, en considrant les relations [3.22] et [3.23], et en sachant que le R 2 correspond au carr du rXY, on
tablit :
=
25
Le test de significativit globale ne porte que sur les paramtres associs aux variables exognes.
40
III.5. Prvision dans le modle de rgression linaire simple

Lun des objets de lajustement linaire quon effectue est de nous aider { prdire les valeurs de Y pour les
nouvelles de X, bref prvoir.
Connaissant la nouvelle valeur de X pour un horizon h, note Xn+h, on distingue deux types de prvision de la
valeur de Y { lhorizon considr : la prvision ponctuelle et la prvision par intervalle.
La prvision ponctuelle est trs simple. Connaissant Xn+h, il suffit de substituer cette valeur dans
lquation estime pour obtenir la valeur correspondante de Y, soit :
=
Xn+h
[3.24]
Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ciaprs :
I=
Yn+h
t/2 ; (n 2)
[3.25]
est lcart-type de lerreur de prvision26. Il est donn par la formule :
[3.26]
Encadr 3. Rgression sans terme constant

Soit le modle : Yt = Xt + ut
Le travail destimation de ce modle doit inclure les nuances suivantes :
La droite des MCO passe forcment par l'origine des axes ;

La droite des MCO ne passe plus forcment par le barycentre ou le centre de gravit du nuage des
points ;
La dcomposition de la variance telle que dcrite dans ce chapitre n'est plus valable ;
Le test d'analyse de la variance (Fisher) n'a plus de sens ;
Le coefficient de dtermination R2 ne peut plus tre lu en termes de proportion de variance
explique par la rgression. Il peut mme prendre des valeurs ngatives ;
La pente de la rgression peut tre interprte d'une autre manire. Elle reprsente directement
le rapport entre les variables cest--dire
L'estimateur des MCO de la pente de la rgression sans constante s'crit :
L'estimateur de la variance de l'erreur et le Student thorique doivent tenir compte des degrs de libert,
cest--dire :
=
et
t/2 ; (n 1)
Source : Adapt de R. Rakotomalala, 2011.
26
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
41
Exercices sur le modle de rgression linaire simple

Exercice 1
Le tableau ci-dessous reprsente lvolution du revenu disponible brut et de la consommation des mnages
en euros pour un pays donn sur la priode 1992-2001. [Pour les calculs, prendre 4 chiffres aprs la virgule].
Anne
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
Revenu
8000
9000
9500
9500
9800
11000
12000
13000
15000
16000
Consommation
7389.99
8169.65
8831.71
8652.84
8788.08
9616.21
10593.45
11186.11
12758.09
13869.62
On cherche expliquer la consommation des mnages (C) par le revenu (R), soit :
Ct = + Rt + ut
Travail faire :
(i)
Tracer le nuage de points et commenter.
(ii)
(iii)
(iv)
(v)
(vi)
(vii)
(viii)
(ix)
(x)
(xi)
Estimer la consommation autonome et la propension marginale consommer et .

En dduire les valeurs estimes de Ct.
Calculer les rsidus et vrifier la proprit selon laquelle la moyenne des rsidus est nulle.
Calculer lestimateur de la variance de lerreur.
Tester la significativit de la pente.
Construire lintervalle de confiance au niveau de confiance de 95% pour le paramtre .
Calculer le coefficient de dtermination et effectuer le test de Fisher permettant de dterminer
si la rgression est significative dans son ensemble.
Ecrire et vrifier lquation danalyse de la variance. Interprter.
Aprs un travail minutieux, un tudiant de L1 FASE trouve le coefficient de corrlation linaire
entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativit de ce
coefficient. Argumenter.
En 2002 et 2003, on prvoit respectivement 16800 et 17000 euros pour la valeur du revenu.
Dterminer les valeurs prvues de la consommation pour ces deux annes, ainsi que
lintervalle de prvision au niveau de confiance de 95%.
(i)
Le graphique nuage de points est donn ci-dessous :

15000
10000
5000
0
0
5000
10000
15000
20000
42
Ce graphique tmoigne de lexistence dune association linaire positive, presque parfaite, entre la
consommation des mnages (Ct) par le revenu (Rt), ce qui autorise lestimation de la relation les liant par la
mthode des moindres ordinaires.
(ii)
Pour simplifier lestimation de la consommation autonome ( ) et de la propension marginale
consommer , posons ce qui suit :

Yt =Ct ; Xt = Rt ; =0 et = 1. Ce qui nous permet dcrire le modle donn dans lexercice comme suit :
Yt = 0 + 1Xt + ut
A partir des calculs effectus dans le tableau ci-dessous, on a :
Estimation de la propension marginale consommer
= 0,78098
Estimation de la consommation autonome

=
= 9985,575 0,78098(11280) = 1176,0896
Le modle estim est par consquent :
= 1176,0896 + 0,78098Xt.
(iii)
Voir tableau ci-dessous. Ces valeurs sont trouves en remplaant dans lquation de la droite des
moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur.
(iv)
Voir tableau ci-dessous. Les rsidus sont calculs daprs la formule et =
(v) Lestimateur de la variance de lerreur est donne par
, connaissant n =10 et
(voir
tableau), on obtient :
=
20646,1728
(vi) La pente ici est la propension marginale consommer, soit . Le test de significativit de ce
coefficient requiert son cart-type
. Connaissant la variance de lerreur, la variance de est calcule comme
suit :
Var ( ) =
= 0,0003
0,0179
Par consquent son ratio de Student est :

=
Puisque
(vii)
= 43,5352
=
> ttable
la pente
t0.025 ; 8 = 2.306.
est statistiquement significative.
Lintervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramtre 1 est
construire comme suit :
I = [ (t0.025 ; 8)
;
+ (t0.025 ; 8) ]
En faisant les remplacements ncessaires, on trouve : I = [0,7396 ;
0,8224]
Le coefficient de dtermination R2 peut tre calcul par la formule (les valeurs viennent du tableau
ci-dessous) :
(viii)
43
0,9958
Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit :

= (43,5352)2 = 1895,3136
F=
F [1 ; 8] = 5, 32. Puisque F >Ftable
RH0, la rgression est significative dans son
ensemble.
(ix)
Lquation danalyse de la variance est :

SCT = SCE + SCR
39296098,1837 =39130928, 8011 +165169, 3826
(x) Nous savons que dans un modle linaire simple, accepter la significativit de la pente revient
accepter celle du coefficient de corrlation linaire. La pente
naturellement.
tant significative, le rXY lest aussi
(xi) La prvision ponctuelle ne pose aucun problme. La prvision par intervalle requiert lestimation de
lcart-type de lerreur de prvision. Elle est donne par :
Yn+h
I=
(t0.025 ; 8)
o
=
En effectuant les remplacements ncessaires, au niveau de confiance de 95% (au seuil de 5%), on a les rsultats
suivants :
Prvision ponctuelle
2002
= 1176,0896 + 0,78098(16800) = 14296,5998
2003
= 1176,0896 + 0,78098(17000) = 14452,7963
Prvision par intervalle

Yn+h [13949,0697 ; 14644,1299]
Yn+h
Le tableau rcapitulant tous les calculs est repris ci-dessous.
[14105,2657 ; 14800,3269]
44
Anne
Yt
Xt
yt
xt
xtyt
1992
7389,99
8000
-2595,585
-3280
8513518,8
10758400
7423,9516
-33,9615958
1153,389989
6737061,4922
-2561,6234
6561914,4650
1993
8169,65
9000
-1815,925
-2280
4140309
5198400
8204,93434
-35,28434098
1244,984718
3297583,6056
-1780,6407
3170681,1566
1994
8831,71
9500
-1153,865
-1780
2053879,7
3168400
8595,42571
236,2842864
55830,26401
1331404,4382
-1390,1493
1932515,0386
1995
8652,84
9500
-1332,735
-1780
2372268,3
3168400
8595,42571
57,41428643
3296,400286
1776182,5802
-1390,1493
1932515,0386
1996
8788,08
9800
-1197,495
-1480
1772292,6
2190400
8829,72054
-41,64053713
1733,934332
1433994,2750
-1155,8545
1335999,5393
1997
9616,21
11000
-369,365
-280
103422,2
78400
9766,89983
-150,6898313
22707,42527
136430,5032
-218,6752
47818,8294
1998
10593,5
12000
607,875
720
437670
518400
10547,8826
45,56742347
2076,390081
369512,0156
562,3076
316189,8106
1999
11186,1
13000
1200,535
1720
2064920,2
2958400
11328,8653
-142,7553217
20379,08188
1441284,2862
1343,2903
1804428,8884
2000
12758,1
15000
2772,515
3720
10313755,8
13838400
12890,8308
-132,7408121
17620,12319
7686839,4252
2905,2558
8440511,3336
2001
13869,6
16000
3884,045
4720
18332692,4
22278400
13671,8136
197,8064427
39127,38879
15085805,5620
3686,2386
13588354,7011
50104729
64156000
165169,3825
39296098,1837
39130928,8011
n=10 ;
et
=9985,575
=11280
Exercice 2
Soit le modle linaire Yt = 0 + 1Xt + ut. O Yt reprsente la quantit offerte de pommes et Xt le prix.
On donne les informations suivantes : = 5 et =3.
Aprs estimation, on a la droite de rgression suivante :
Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de rgression, trouver
et
Connaissant le couple (Y=2.5 ; X=2) et le centre de gravit du nuage de points ( = 5 ;
aprs :
Y
X
5
3
2.5
2
=3), on peut reproduire la droite des moindres carrs de cette estimation comme ci-
45
5,5
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0
En mesurant la pente de cette droite, on trouve la pente

Connaissant la pente
=
et les deux moyennes
et
= 2,5.
est calcul comme suit :
= 5 (2,5)3 = 2,5
Et le modle estim (quation de la droite des MCO) est :
= 2,5+ 2,5Xt
Exercice 3
Soit un modle linaire simple : Yt = 0 + 0Xt + ut
On donne les informations suivantes :
YX=184500 Y2=26350 X2=1400000
=60
=400
n=7
Travail demand :
-
Estimer les coefficients du modle

Evaluer la qualit de cet ajustement
Tester la significativit globale du modle
En fonction des donnes en prsence, les formules suivantes seront utilises pour rpondre aux trois questions
poses :
R2 =
F=
et
Aprs calcul, sachant que YX =XY, on a les rsultats suivants :

=0,0589 ;
= 36,44 ; R2=0,8455 ; F = 27, 3618
Le R2 tant relativement lev, environ 85%, lajustement effectu est de bonne qualit. Et puisque F > F
6,61, on en conclut que le modle est globalement bon.
[1 ; 5]
46
Exercice 4
Soit le modle : Yt= 0 + 1Xt + ut
Yt : salaire moyen horaire par jour [en USD]
Xt : nombre dannes dtudes
On donne par ailleurs les informations suivantes : rXY= 0.951916 ; x=3.894440 et y=2.945636
Aprs estimation, sur base dun chantillon de 13 observations, un tudiant de L1 FBA prsente les rsultats
incomplets ci-aprs :
= 0.030769 + .. Xt
Travail demand :
(i)
(ii)
(iii)
(iv)
(v)
Complter les pointills.

Tester la significativit du rXY.
Interprter ces rsultats. Semblent-ils logiques ?
Calculer le R2.
Tester la significativit de la pente et la significativit densemble du modle.
(i)
Connaissant rXY, x et y, la pente
est estime par la formule
= rXY
, ce qui donne, en
remplaant :
=0, 7200. On a ainsi :
= 0,030769 + 0, 7200 Xt
(ii)
Le t calcul pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on
conclut que le rXY est statistiquement non nul.
(iii)
Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre dannes dtudes. En
effet, ces rsultats semblent logiques car il est tout fait normal que ceux qui beaucoup tudi gagnent un peu
plus que ceux qui ont tudi un peu moins.
(iv)
On sait que, pour un modle de rgression linaire simple avec terme constant, le R 2 nest rien
dautre que le carr du coefficient de corrlation de Bravais Pearson. Ainsi :
R2 = (0, 951916)2 = 0,9061
(v)
Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modle linaire
simple, le F nest rien dautre que le carr du t de Student associ la pente. Le t de Student de la pente est
donc obtenu en prenant la racine carr de F, soit :
10,3054 > t0.025 ; 11 = 2,201
En conclusion, la pente est statistiquement significative et le modle est valable dans lensemble.
47
Exercice 5
Le tableau suivant donne lge et la tension artrielle Y de 12 femmes :
Individu
Age (X)
Tension artrielle (Y)
1
56
136
2
42
132
3
72
136
4
36
130
5
63
138
6
47
132
7
55
136
8
49
130
9
38
142
10
42
134
11
68
136
12
60
140
Travail demand :
(i)
(ii)
(iii)
Dterminer lquation de la droite de rgression de Y sur X.

Tester la significativit de la pente. Quelle conclusion peut-on tirer ?
Estimer la tension artrielle dune femme ge de 50 ans.
Lquation de la droite de rgression de Y sur X est :
= 129,5193 + 0,1079Xt
(5,0449) (0,0942)
(.) : cart-type
La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student thorique, au seuil de 5% et
10 degrs de libert est ttable = 2,228. Do la pente est statistiquement nulle, ce qui signifie que lge nexplique
en rien la tension artrielle.
La tension artrielle dune femme ge de 50 ans est :
= 129,5193 + 0,1079(50) =134,9149
Exercice 6
Les donnes statistiques ci-dessous portent sur les poids respectifs des pres et de leur fils an.
Pre
Fils
65
68
63
66
67
68
64
65
68
69
62
66
70
68
66
65
68
71
67
67
69
68
71
70
Travail demand :
(i)
(ii)
(iii)
(iv)
Calculer la droite des moindres carrs du poids des fils en fonction du poids des pres.
Calculer la droite des moindres carrs du poids des pres en fonction du poids des fils.
Que vaut le produit des pentes des deux rgressions ?
Juger de la qualit des ajustements faits en (i) et (ii).
Soient Y=Fils et X=Pre.
La droite des moindres carrs du poids des fils en fonction en fonction des pres, aprs estimation est :
= 35,8248031 + 0,47637795Xt
Et la droite des moindres carrs du poids des pres en fonction en fonction des fils, aprs estimation est :
= -3,37687366 + 1,03640257Xt
48
Le produit de deux pentes donne le R2 qui, comme le coefficient de corrlation linaire, est un indicateur
symtrique. On a ainsi :
R2 =0,47637795 * 1,03640257 = 0,49371933
Au regard de la valeur du R2 faible, environ 49%, les ajustements effectus en (i) et (ii) ne sont de bonne qualit.
Exercice 7
Cocher la bonne la rponse.
1. La droite des MCO dune rgression linaire simple avec constante passe-t-elle par le point ( , ) ?
A. Toujours
B. Jamais
C. Parfois
2. Pour une rgression linaire simple, le R2 est symtrique :
A. Oui
B. Non
C. Parfois
3. Pour une rgression linaire simple, le R2 correspond au carr du F de Fisher :
A. Oui
B. Non
1 A ; 2A ; 3B.
Exercice 8
Soient les donnes suivantes :
= 114
= 36
= 226
= 702
Estimer la relation Yt = 0 + 1Xt + ut
Indication : n = 6.
Exercice 9
Soit le modle suivant sans terme constant : Yt = Xt + ut.
Trouver lestimateur
des MCO.
En appliquant le critre des MCO, minimisation de la somme des erreurs quadratiques, cette relation, on
obtient :
49
Exercice 10
Soit les rsultats dune estimation conomtrique :
= - 32.95 + 1.251Xt
n = 20
R2 = 0.23
= 10.66
1)
A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme
des carrs des rsidus (SCR), la somme des carrs totaux (SCT), la somme des carrs expliqus
(SCE), la statistique F de Fisher et lcart-type de la pente.
2) La pente est-elle significativement suprieur 1 ?
Exercice 11
Montrer algbriquement que :
1. La somme des rsidus est toujours gale 0.

2. Tester lhypothse H0 : 1 = 0 [avec 1 la pente], revient { tester lhypothse rXY = 0.
Solution de lexercice 11 : voir texte.
Exercice 12
Le tableau ci-aprs renseigne sur la quantit offerte dun bien (Y) et son prix (X)
N
Y
X
1
23
5
2
25
7
3
30
9
4
28
6
5
33
8
6
36
10
7
31
9
8
35
7
9
37
8
10
42
11
Travail faire :
(i)
(ii)
(iii)
(iv)
Tracer le diagramme de dispersion et commenter.

Rgresser Y sur X.
Calculer les rsidus de cette rgression.
Juger de la qualit de cet ajustement.
(v)
Tester la significativit individuelle et conjointe des paramtres.
Exercice 13
Le coefficient de corrlation linaire entre deux variables X et Y est r = 0.60. Si les carts-type de X et Y sont
respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les quations de rgression
de Y en X et de X en Y.
50
.IV.
MODELE DE REGRESSION LINEAIRE MULTIPLE

IV.1. Formulation et hypothses de base
Le modle de rgression linaire multiple nest quune extension du modle de rgression linaire simple au
cas multivari dans lequel interviennent plusieurs variables exognes dans lexplication du phnomne
tudi. On parle aussi de modle de rgression linaire gnral ou standard pour souligner que ce modle
reste valable quel que soit le nombre dexognes qui sy figurent. Dans sa forme gnrale, il scrit de la
sorte :
o chaque
est un coefficient marginal qui aprs estimation saisit, ceteris paribus, leffet dune
variation dun point de la variable exogne Xj sur la variable endogne ; t=1, , n correspond { la date des
observations.
Si lon considre plusieurs dates, la relation [4.1], sous forme matricielle, scrit :
o k est le nombre de variables explicatives, k+1 le nombre de paramtres que lon prendra lhabitude de
noter par K dans la suite de ce chapitre.
Sous forme compacte, on a :
[4.2]
Y = X + U
En principe, le critre des moindres carrs ordinaires, comme pour le modle simple, ne soulve aucune
difficult, la diffrence que pour le modle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan.
En algbre linaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace 3 dimensions, la
notion dhyperplan est confondue avec celle de plan, mais cela nest plus vrai quand on dpasse 3 dimensions.
51
Hypothses de base
La mthode des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses stochastiques
H1. Les erreurs sont IID
Hypothses structurelles
(0,
). Cette hypothse implique que
les erreurs sont normalement distribues, non-autocorrles et
homoscdastiques.
H3. Le modle est linaire ou linarisable en X
Formellement, on a :
H4. Les exognes Xj et la variable endogne Y
[ou sur ses paramtres] tels que lexprime la

relation [4.2].
sont observes sans erreur. Y est alatoire par

lintermdiaire de ut.
H5. Les exognes Xj et la variable endogne Y

sont gaussiennes et stationnaires en niveau.
H6. Le nombre dobservations n doit tre

suprieur au nombre des paramtres estimer.
H7. La matrice XX est non singulire de rang K,

cest--dire
et
existe. Cette
hypothse implique labsence de colinarit
entre les exognes, autrement dit les diffrents
vecteurs Xj sont linairement indpendants. En
cas de multicolinarit, la mthode des MCO
devient dfaillante.
H2. Il y a indpendance entre la partie systmatique et la partie

stochastique, soit E(XU) = 0.
IV.2. Estimateurs des MCO et proprits

Comme vu au chapitre prcdent, les diffrents sont obtenus en minimisant la somme quadratique des
rsidus. Mathmatiquement, le problme se prsente comme suit :
[4.3]
En notation matricielle, la relation [4.3] scrit :
[4.4]
Par consquent, on a :
[4.5]
Un bref rappel matriciel est propos en annexe 1 de ce chapitre.
52
En effectuant dans la parenthse, il vient :

[4.6]
Les termes
et
tant des scalaires provenant des variables identiques, ils sont gaux et on peut
donc les regrouper. Ce qui permet dcrire :
[4.7]
En appliquant les conditions du premier ordre, on obtient les quations normales telles que :
En considrant un modle simple, la relation [4.8] devient :
En effectuant dans chaque bloc, on obtient :
On retrouve ainsi les quations normales, vues au chapitre prcdent, pour un modle simple. Mais
pourquoi normales ? La rponse cette question est propose ci-aprs.
Dans le systme ci-haut, renvoyons tous les termes dans un membre, il vient :
Exprime sous forme vectorielle, la dernire quation scrit : Xe = 0. Un vecteur tel que e, orthogonal
tout vecteur de lhyperplan engendr par X, est dit normal { lhyperplan. Do le qualificatif "dquations
normales".
En pratique, lestimation ponctuelle par les MCO se fait en pr-multipliant chaque ct de la relation [4.8]
par
, ce qui permet dcrire******** :
[4.9]
********
est une matrice forcment symtrique, de mme que son inverse (
)1.
53
Proprits des estimateurs

Le thorme de Gauss Markov avance, au respect des hypothses de base susmentionnes, que dans la
famille des estimateurs linaires non biaiss, ceux des MCO sont les meilleurs car ayant la variance la plus
faible.
. Estimateurs linaires
Pour dmontrer cette proprit, il suffit, dans lquation [4.9], de poser =
, il vient :
. Estimateurs sans biais

Rcrivons la relation [4.9] comme suit :
Ainsi,
[4.10]
En passant lesprance mathmatique de , il ressort clairement que
[4.11]
E(
est sans biais :
. Estimateurs convergents
Les variances des estimateurs OLS sont calcules comme suit.
Var( ) = E
Connaissant les relations [4.10] et [4.11], il vient :
Aprs une petite manipulation simple, on obtient :

[4.12]
Ou encore :
Il faut noter en passant que la matrice
est symtrique, elle est donc gale sa transpose.
54
Et lestimateur de la variance rsiduelle est donn par la formule suivante :
Ainsi obtient-on :
[4.13]
Lorsque le nombre dobservations tend vers linfini, lexpression [4.13] ci-dessus tend vers zro. Par
consquent, lestimateur
est convergent. Toutefois, la condition suffisante serait que les variables
exognes ne tendent pas devenir colinaires lorsque n tend vers l'infini. De plus, selon le thorme de
Gauss-Markov, Var( ) Var(
que les MCO]
) [avec
un estimateur linaire et non biais obtenu par une autre mthode
La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimes de
],
ncessaires pour mener les tests statistiques.

Consquence du thorme de Gauss-Markov
Soit le modle de rgression linaire multiple suivant :
o ut N(0,
). Lapplication de la mthode OLS { cette quation implique que
1re consquence : Sous lhypothse de normalit des erreurs, non seulement que lestimateur des MCO est
BLUE par le thorme de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de lingalit de Cramer-Rao, borne infrieure pour tous les
estimateurs.
2re consquence : Sous lhypothse de normalit, on obtient des tests exacts. Sachant que
, cela revient dire que lon connat les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits chantillons.
55
IV.3. R2 et R2 ajust
Connaissant lquation danalyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport :
[4.14]
Lorsque la rgression est faite sur donnes centres, le coefficient de dtermination se calcule avec la
formule :
[4.15]
Il faut noter que, comme pour le modle simple, le coefficient de dtermination reste un indicateur du
caractre explicatif de lquation de rgression { bien modliser Y t. Il mesure ainsi la part de variance de la
variable endogne attribuable sa rgression sur les X. Ceci est confirm par le fait que le coefficient de
dtermination nest rien dautre que le carr du coefficient de corrlation de Bravais-Pearson entre les
valeurs observes et les valeurs prdites de Y.
[4.16]
R2 =
Note importante: Le coefficient de corrlation linaire entre

et Y ( ) est appel coefficient de
corrlation multiple. Cela suggre d'ailleurs de construire le graphique nuage de points confrontant et Y
pour valuer la qualit de la rgression. Si le modle est parfait, les points seraient parfaitement aligns.
Bien videment [0 R2 1], plus R2 est proche de 1, plus le caractre explicatif du modle est important.
Le R2 est certes un indicateur de qualit, mais il prsente linconvnient dtre mcanique. Cest--dire que
sa valeur augmente avec laugmentation des variables explicatives, mmes non pertinentes { lexplication
du phnomne tudi.
A lextrme, si on augmente le nombre de variables explicatives, mmes impertinentes, tels que le nombre
de paramtres devienne gal au nombre dobservations, on aurait un R2=1. Ainsi, en tant que tel, le R2 nest
pas loutil appropri pour juger de lapport des variables supplmentaires lors de la comparaison de
plusieurs modles. Lorsquil augmente de manire mcanique, de lautre c t lon perd en degrs de
libert.
La mesure alternative, plus robuste { lajout des variables, qui corrige ce problme associ aux degrs de
libert est le R2 ajust de Henry Theil, appel aussi R2 corrig. Elle se dfinit comme suit :
[4.17]
Comme on le voit, il sagit l{ dun R2 corrig par les degrs de libert. Il peut dailleurs sexprimer en
fonction du R2 ; en manipulant la relation [4.17], on obtient :
[4.18]
56
Cependant, il faut faire attention de ne pas interprter le

en termes de part de variance explique. Son
seul avantage est quil permet de comparer plusieurs modles. De plus, le
peut prendre des valeurs
ngatives. Dans ce dernier cas, il faut lassimiler { zro.
Note importante :
Dans un modle linaire simple,
R2
Dans un modle linaire multiple,
< R2
Si n est grand, alors
R2
2
Le R et le
nont de sens que dans un modle qui comporte un terme constant.
Coefficient de corrlation partielle
Dans le chapitre sur la corrlation, nous avions mis en vidence quil tait possible que la corrlation entre
deux variables Xi et Xj ne tienne qu{ un artefact statistique ou un facteur confondant une troisime
variable Xk laquelle Xi et Xj seraient lies en ralit , appel aussi phnomne-source. Lon peut se
souvenir de lexemple du journaliste qui a dcouvert quil existait une trs forte corrlation entre le fait
davoir un nid de cigognes sur sa demeure et le fait davoir des enfants { Washington, oubliant que cela ne
tenait quau rang social des familles tudis, car la prsence dun nid de cigognes sur le toit signifierait
plut t que la famille qui y habite est aise et donc dispose, financirement, { avoir plus denfants.
Ainsi, dans la slection des variables pertinentes { lexplication dun phnomne, pour viter une telle
ventualit o la corrlation entre la variable endogne et lexogne ne tiendrait qu{ un artefact, on a
recours au coefficient de corrlation partielle.
Le coefficient de corrlation partielle mesure la liaison entre deux variables lorsque linfluence dune
troisime variable [des autres variables prsentes dans le modle] est retire.
Coefficient de corrlation partielle du premier ordre
Coefficient de corrlation partielle du deuxime ordre
Soit Y une variable endogne, et Xi, Xj et Xk des

exognes, le coefficient de corrlation partielle
mesure le lien entre Y et chaque X, linfluence juste
dune troisime variable exogne tant exclue.
Partant de lexemple choisi, on peut calculer ainsi six
coefficients de corrlation partielle du premier ordre :
En considrant lexemple ci-contre, le coefficient de

corrlation partielle du deuxime ordre sert quantifier
le lien entre Y et chaque X, linfluence de deux autres
tant exclue. Ainsi, partant du mme exemple, il est
possible de calculer trois coefficients de corrlation
partiels du deuxime ordre, soit :
;
;
Etapes de calcul
Dans ce cas, le coefficient de corrlation partielle du

premier ordre peut tre calcul partir des
coefficients de corrlation de Bravais-Pearson
comme suit :
Supposons que lon veule mesurer le lien entre Y et Xi,

linfluence de Xj et de Xk tant neutralise, soit
, on aura les tapes ci-aprs :
(i)
(ii)
(iii)
En suivant les indices, ltudiant peut aisment

gnraliser.
Calcul des rsidus e1 issus de la rgression de

Y sur Xj et Xk ;
Calcul des rsidus e2 issus de la rgression de
Xi sur Xj et Xk ;
correspondra au carr du
coefficient de corrlation linaire calcul
entre e1 et e2 :
Pour la comparaison des modles, on utilise aussi les critres dinformation [Aikak (AIC) ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la diffrence que ces critres sont minimiser dans le choix du meilleur modle.
Appels dans ce cas coefficients dordre zro.
57
La notion de corrlation partielle est importante dans la mesure o elle permet de juger de la pertinence
dintroduire une variable exogne dans le modle. Plus lev sera le coefficient de corrlation partielle
dune variable, plus importante sera sa contribution { lexplication globale du modle.
IV.4. Test de significativit des paramtres

Test de significativit individuelle
Comme pour le cas simple, le test de significativit individuelle, qui porte sur chaque paramtre, est men
en calculant les ratios de Student. Pour un test bilatral, les hypothses du test sont :
Le ratio de Student est calcul comme suit :

[4.19]
Sous H0, la formule [4.19] devient :

[4.20]
On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n K) degrs de libert.
> t/2 ; (n K), alors RH0, le paramtre
est statistiquement non nul, la variable lui
associe est par consquent non pertinente dans la prdiction de Y.

Comme cela a t vu au chapitre prcdent, lestimation par intervalle se fait en appliquant la formule ciaprs :
[4.21]
I=
t/2 ; (n 2)
Test de significativit conjointe ou globale

Le test de significativit globale sert tester la pertinence du modle. Il rpond la question de savoir si
lensemble des exognes apporte de linformation utile { la connaissance de la variable endogne. Ceci dit,
seuls les paramtres associs aux variables explicatives interviennent dans le test, la constante nest donc
prise en compte ici, car cest bien linfluence des exognes sur la variable explique que lon cherche {
tablir.
Dans la littrature anglophone, ce test est parfois considr comme un test de significativit du R 2, dans le
sens o il valuerait le pouvoir explicatif des exognes, pris dans leur globalit, sur lendogne.
58
Et la statistique calculer est :
[4.22]
F=
Sous H0, on dmontre que la statistique F suit une distribution de Fisher respectivement (K 1) et (n K)
degrs de libert.
Critre de dcision : Si F > F [(K 1) ; (n K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modle est bon.
Application de tests de significativit : Test des rendements dchelle
Soit le modle suivant :
[4.23]
Ln Qt = Ln A + 1Ln Lt + 2 Ln Kt + ut
o Qt est la production, Lt le travail, Kt le capital et 1 et 2 les lasticits de la production au travail et au

capital, respectivement.
La thorie macroconomique avance quil y a rendements { lchelle constants sil se vrifie que :
[4.24]
1 + 2 = 1.
Comment alors tester une telle hypothse ?

Pour tester cette restriction sur les paramtres, on suivra les tapes suivantes :
Estimer le modle [4.23] sans restriction sur les paramtres, dit modle non contraint ;
Calculer les variances de et , ainsi que leur covariance Cov( ,

Calculer ensuite le ratio de Student avec la formule :
[4.25]
Connaissant [4.24] et en sachant que Var

devient :
[4.26]
tcal =
= Var( ) + Var( ) + 2Cov( ,
), la formule [4.25]
tcal =
Tester enfin lhypothse des rendements dchelle constants contre celle des rendements
dchelle non constants, soit :
> t/2 ; (n K)
RH0 selon laquelle il y a rendements { lchelle constants.
59
IV.5. Prvision dans le modle de rgression linaire multiple

Soit la rgression suivante de Yt sur le terme constant et sur les exognes Xj :
Si le vecteur des valeurs des exognes pour un horizon h est connu, soit R=
la prvision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :
Ce qui, en criture matricielle, scrit :
Sous forme compacte, on a :

[4.29]
Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ci-aprs :
[4.30]
o
I=
t/2 ; (n K)
est lcart-type de lerreur de prvision *********. Il est donn par la formule :
[4.31]
*********
Yn+h
Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.
60

Synthse des formules sur la rgression linaire multiple
Formules
Indications
Modle danalyse :
donne une matrice K 1 des paramtres

estims du modle.
fixe un intervalle de confiance, avec un
risque , dans lequel le i inconnu de la
population serait compris.
Ponctuelle
Estimation
Ii =
Par intervalle
t/2 ; (n 2)
Modle estim :
sur sa diagonale principale, on lit les

variances estimes de ( ), ncessaires
pour mener les tests statistiques.
le coefficient de dtermination reste un
indicateur du caractre explicatif de
lquation de rgression { bien modliser
Yt.
, appel coefficient de corrlation
multiple, est le coefficient de corrlation
de Bravais-Pearson entre les valeurs
observes et les valeurs prdites de Y.
Matrice COVA
2
Donnes brutes
R2
R =
2
Donnes centres
tant connu
R2 =
il sagit l{ dun R2 corrig par les degrs de

libert.
R ajust de Theil
Test
de
significativit
individuelle
conjointe
t/2 ; (n K)
F=
[sous H0]
Si
F [(K 1) ; (n K)]
> t/2 ; (n K)
RH0
Si F > F [(K 1) ; (n K)]
RH0
Ponctuelle
Yn+h
Prvision
I=
t/2 ; (n K)
Par intervalle
Permet de deviner la valeur de Y

la priode h, les exognes de la
mme priode tant fixes.
61
IV.6. Utilisation des variables indicatrices

Synonyme : variables qualitatives, binaires, dummy, muettes, dichotomiques, auxiliaires, artificielles.
Une variable indicatrice est une variable spciale qui ne prend que deux valeurs, savoir :
1 pour indiquer que le phnomne (ou lvnement) a lieu ;

0 pour indiquer que le phnomne (ou lvnement) na pas lieu.
Elle est utilise en conomtrie pour saisir les facteurs qualitatifs comme la race, le sexe, la religion ou
mme un vnement tel quune guerre, une grve, un tsunami, etc. que lon dsire intgrer dans les
modles. Comme variable explicative, on la note gnralement par la lettre D, pour dire dummy.
Il est galement important de noter que les variables binaires peuvent intervenir dans le modle de deux
manires, soit comme endogne [modle de probabilit linaire, modles Logit, Probit, Tobit, Gombit] soit
comme exogne [modles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intressons quau cas o la
variable muette entre comme explicative dans le modle.
Aussi, lutilisation de ces variables dpend fortement du problme pos. Comme exognes, les variables
dummy sont utilises pour rpondre un triple objectif :
Corriger les carts aberrants (ou dviants) ;

Capter la prsence de la discrimination ;
Capter les variations saisonnires.
. Corriger les valeurs singulires (ou anormales)

Lorsque la variable endogne comporte, certaines dates, des valeurs atypiques cest--dire des valeurs
anormalement leves ou anormalement basses associes en gnral la survenance de chocs ou
dvnement rares, il y a lieu dincorporer une dummy dans le modle afin den tenir compte. La dmarche
consisterait simplement dtecter les valeurs anormales et les corriger, en mettant 1 ces dates l et 0
ailleurs, afin que les dviants ne perturbent pas lestimation statistique des autres variables.
Considrons le jeu de donnes ci-aprs, o Yt est lendogne et Xt lexogne. On veut estimer le modle :
Yt = 0 + 1Xt + ut
[A]
Date
Yt
Xt
11 fvrier
10
5
12 fvrier
12
7
13 fvrier
2
8
14 fvrier
15
9
15 fvrier
17
10
On observant lvolution de Yt, il y a un cart criant au 13 fvrier qui frappe notre attention. La consquence
directe serait que, sil faut rgresser Yt sur Xt, cette valeur aura tendance fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrs de faon avoir une moyenne.
On sen rend bien compte { travers le graphique nuage de points avec droite de rgression, y
correspondant, suivant.
Le terme anglo-saxon dummy est le plus utilis.
62
20
15
10
5
0
0
10
12
Et lestimation par OLS, donne la droite suivante :

= 1.6081 + 1.2297Xt
[0.1265]
[0.7728]
R2 =0.1660
Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a compltement perturb lestimation de
la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le
modle. On mettra 1 la date du 13 fvrier et 0 partout ailleurs. Le modle estimer devient :
Yt = 0 + 1Xt + 2Dt + ut
Date
Yt
Xt
Dt
11 fvrier
10
5
0
12 fvrier
12
7
0
[B]
13 fvrier
2
8
1
14 fvrier
15
9
0
15 fvrier
17
10
0
Lestimation par OLS du modle [B] donne prsent :

= 2.7288 + 1.3898Xt 11.8475Dt
[2.6032] [10.5862] [20.9805]
R2 =0.9962
Lincorporation dans le modle dune dummy a donc permis de corriger la valeur atypique.
Note importante :
La correction effectue nest valable que si le coefficient associ la variable dummy est
statistiquement significatif.
Aprs estimation, le signe affect { la variable binaire est proportionnelle { lanomalie constate
dans les donnes. Sil sagit dune observation anormalement basse, comme cest le cas dans
lexemple ci-haut, le signe affect la dummy sera , ce qui indique que lcart criant avait
tendance ramener la droite de rgression vers le bas. En revanche, sil est plut t question dune
observation anormalement leve, le signe affect la dummy sera +, ce qui indique que le dviant
avait tendance tirer la droite de rgression vers le haut.
Attention ne pas saisir les carts anormalement levs et anormalement bas par une mme une
variable muette. Lorsque la srie prsente la fois les deux types dcarts, il convient de les capter
par deux variables auxiliaires diffrentes, lune pour les observations exceptionnellement leves
et lautre pour celles exceptionnellement basses.
63
. Capter la prsence de la discrimination

Lexplication dun phnomne peut parfois ncessiter la prsence des variables qualitatives. Supposons
que lon souhaite expliquer, pour dix tudiants de premire licence en Economie chantillonns, le
phnomne " cote obtenue en macroconomie CMi" ; tout naturellement les variables comme prsence au
cours PCi, nombre dheures dtude consacres la macroconomie HE isavrent pertinentes. Mais il est
tout fait aussi possible que des variables comme la religion de ltudiant REi, ou sa tribu TEi, soient
dterminantes dans lexplication du phnomne tudi. Dans ce cas, lutilisation dune variable binaire
permet de segmenter les individus en deux groupes et de dterminer si le critre de segmentation est
rellement discriminant.
Dans lexemple de tout { lheure sur la cote obtenue en macroconomie, si lon assume que lappartenance
ou non la religion catholique est dterminante dans la russite, ce qui revient dire que la religion est un
facteur de discrimination, le modle estimer sera :
CMi = 0 + 1 PCi + 2HEi + 3REi
o REi =
Puis estimer, comme vu prcdemment, en appliquant les MCO. Aprs estimation, si 3 est statistiquement
significatif, on en conclurait que la religion (catholique) a jou sur la cotation en macroconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroconomie. A loppos, si 3 est
statistiquement non significatif, on en conclurait que la religion (catholique) na pas jou sur la russite en
macroconomie.
Note importante :
Dans le cas de variables dummy plusieurs modalits, par exemple ltat civil (clibataire, mari,
divorc, autres), il est convenable de coder alors autant de variables indicatrices quil y a de
modalits moins une. Ainsi, pour ltat civil, on dfinira trois variables binaires : clibataire (=1
si lindividu est clibataire, 0 sinon), mari (= 1 si lindividu est mari, 0 sinon), divorc (= 1 si
lindividu est divorc, 0 sinon), la modalit autres tant implicitement contenue dans le terme
constant [et ne serait donc spcifie part que dans un modle sans terme constant].
La codification dpend du modlisateur et doit tre prise en compte dans linterprtation des
rsultats. A titre exemplatif, si lon considre la variable qualitative sexe, le modlisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
linterprtation.
. Capter les variations saisonnires

Les variables indicatrices sont aussi utilises pour prendre en compte les mouvements saisonniers qui
caractrisent certaines variables comme les dpenses de publicit, qui sont gnralement plus importantes
en certaines priodes de lanne quen dautres.
Supposons que lon sintresse { la relation entre le chiffre daffaires (Ch t) et les dpenses de publicit
(Dpubt). On peut crire :
Lune delles tant implicitement contenue dans le terme constant.

Cht = 0 + 1Dpubt + ut
64
[i]
En utilisant les donnes trimestrielles, il ne serait pas correct destimer directement le modle [i], parce
quon naurait pas tenu compte de leffet saisonnier, les dpenses de publicit ne sont pas les mmes tous
les trois mois [trimestre].
On peut capter leffet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy quil y a de trimestres, soit quatre dummy. Sachant quon compte quatre
trimestres par anne, lintroduction des variables dummy se fera comme suit :
2
0
0
5
2
0
0
6
Trimestre
1r trimestre
2me trimestre
3me trimestre
4me trimestre
1r trimestre
2me trimestre
3me trimestre
4me trimestre
D1t
1
0
0
0
1
0
0
0
D2t
0
1
0
0
0
1
0
0
D3t
0
0
1
0
0
0
1
0
D4t
0
0
0
1
0
0
0
1
1
1
1
1
1
1
1
1
Et le modle [i] devient :

Cht = 0 + 1Dpubt + 2D1t + 3D2t + 4D3t + ut
[ii]
ou encore :
Cht = 1Dpubt + 2D1t + 3D2t + 4D3t + 5D4t + ut
[iii]
Si le modle contient un terme constant, celui-ci joue doffice le r le de lune de quatre variables dummy.
Dans [ii] par exemple, 0 joue le rle de D4t [on a le choix pour la variable binaire carter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.
Une fois cette gymnastique termine, on peut alors, sans difficult normalement, appliquer les MCO soit
sur le modle [ii], soit sur le modle [iii].
65
ANNEXES DU CHAPITRE IV
ANNEXE 1 : Quelques rappels de calcul matriciel
Le calcul matriciel a t introduit en Economtrie par Alexander Craig Aitken.
1.
Oprations matricielles
Addition et soustraction
Soient deux matrices carres A et B de format 2. La somme ou la soustraction de ces deux matrices
seffectue comme suit :
B=
L'addition et la soustraction des matrices ne sont donc dfinies que pour des matrices de mme format ou de
mme ordre.
Proprits importantes de laddition et la soustraction des matrices
(i)
(ii)
A
A
B=B A
(B C) = (A
B)
Multiplication par un scalaire

Soient un scalaire k (un nombre rel) et la matrice carre A ci-dessus. La multiplication de A par le scalaire k
seffectue de la sorte :
kA =k
La multiplication par un scalaire est donc possible quel que soit lordre de la matrice A.
Proprits importantes de la multiplication par un scalaire
(i)
(ii)
kA = Ak
k(A B) = kA
kB
Produit matriciel
Soient les deux matrices carres A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la premire matrice est gal au nombre de lignes
de la deuxime matrice [principe du produit matriciel]. Le produit matriciel seffectue en faisant la somme
algbrique des produits des lments de chaque ligne de la premire matrice par les lments
correspondants de chaque colonne de la deuxime matrice.
Une matrice carre est une matrice dont le nombre de lignes est gal au nombre de colonnes. On dit matrice
carre de format n ou dordre n m.
66
Pour les matrices carres A et B ci-haut, on obtient :
AB =
2
Proprits importantes du produit matriciel

Soient trois matrices conformables A, B et C, on a les proprits essentielles suivantes :
(i)
(ii)
(iii)
A(B + C) = AB + AC
A(BC) = (AB)C
AB BA en gnral
Transpose dune matrice

La transpose dune matrice A de format m
en permutant les lignes et les colonnes de A.
n, note AT ou A, est une matrice de format n
m obtenue
AT =
Soit A =
Proprits importantes de la transposition des matrices

Soient trois matrices conformables A, B et C, on a :
(i)
(ii)
(iii)
(iv)
(A + B + C)T = AT + BT + CT
(ABC)T = CTBTAT
(AT)T = A
(kA)T = kAT
Rang dune matrice

Soit une matrice A dordre m n. Le rang de la matrice A, not r (A), est le nombre de ses vecteurs lignes [ou
ses vecteurs colonnes] linairement indpendants, dit autrement, cest le nombre de ses lignes (ou ses
colonnes) non entirement nulles, aprs chelonnement de la matrice.
Si le rang dune matrice A donne correspond au minimum entre le nombre de ses lignes et de ses
colonnes, on dira que A est de rang maximum.
Une matrice carre A dordre n est dite non singulire si son rang est maximum, soit [r (A) = n].
67
2. Matrices carres
Matrice diagonale
Matrice scalaire
Matrice unit ou identit
est une matrice carre dont un au

moins des lments situs sur sa
diagonale principale est non nul, tous
les autres lments tant nuls.
est une matrice diagonale dont

tous les lments, non nuls, sur sa
diagonale principale sont gaux.
note I, est une matrice scalaire dont

les lments sur la diagonale
principale sont gaux 1.
Exemple :
Exemple :
Exemple :
B=
I=
A=
Matrice symtrique
Matrice idempotente
Trace dune matrice carre
Soit une matrice carre A. On dit que A

est une matrice symtrique si AT = A.
Soit une matrice carre A. on dit

que A est une matrice idempotente
si AA = A.
La trace dune matrice carre A,

note tr (A), se dfinit comme tant
la somme algbrique des lments
de sa diagonale principale.
Exemples :
La matrice unit I est forcment

symtrique. On vrifie donc que
IT = I;
La
matrice
(X'X),
dans
lestimation
des
,
est
symtrique, soit (X'X)' =(XTX).
Exemple :
M = [I X(X'X)1X']
Soient deux matrices A et B, dont les

dimensions respectives sont de
(m n) et de (n m). Par consquent,
AB et BA sont deux matrices carres
et :
tr (AB) = tr (BA)
Pour trois matrices A, B et C, si le
produit donne des matrices carres,
on a :
tr (ABC) = tr (CAB) = tr (BCA)
Proprits importantes de la matrice unit

(i)
(ii)
(iii)
II = I
InAn = An
tr (In) = n
Dterminant dune matrice carre

Dordre 2
Soit la matrice carre A, dordre 2, son dterminant not
est calcul comme suit :
68
Dordre 3
Le dterminant dune matrice carre A dordre 3 est calcul en appliquant la rgle de Sarrus********** comme
suit :
Dordre n quelconque
Le dterminant dune matrice A dordre n est donn par la somme algbrique des produits obtenus en
multipliant les lments dune ligne (ou dune colonne) de la matrice A par leurs cofacteurs correspondants,
nots Cij.
La matrice des cofacteurs, quant elle, est trouve en pr multipliant la matrice des mineurs, note Mij,
par (1)i+j, soit :
Cij = (1)i+jMij
La mthode des cofacteurs, dite aussi mthode dexpansion de LAPLACE , permet de calculer un
dterminant dordre n { laide des mineurs [dterminants dordre (n 1)]. On a toujours intrt
dvelopper un dterminant des lignes ou des colonnes o apparaissent beaucoup de zros.
Note : Le mineur mij de la matrice A est le dterminant calcul en supprimant la ligne i et la colonne j de A.
Proprits importantes des dterminants
(i)
(ii)
(iii)
(iv)
Si une ou plusieurs lignes ou colonnes dune matrice sont linairement dpendantes, alors le
dterminant de cette matrice est nul. On dit quune telle matrice est singulire.
Si une matrice carre A est de rang maximum, alors son dterminant est diffrent de zro.
Inverse dune matrice carre

Soit A une matrice carre et B une autre matrice carre du mme ordre que A. On dit que B est l'inverse de A si
AB = BA = I.
1
L'inverse de A, not A , n'existe que si A est une matrice carre de rang maximum. Cet inverse est unique.
**********
Du nom du mathmaticien franais Pierre Frdric Sarrus (1798 1861).

Du nom du mathmaticien, astronome et physicien franais Pierre Simon de LAPLACE (1749 1827).
69
Il existe, dans la littrature, plusieurs mthodes de calcul de linverse dune matrice carre. Dans ce papier, nous
nen prsentons que deux.
Mthode classique (ou mthode de ladjointe)
Mthode itrative (ou gaussienne)
Par la mthode de ladjointe, linverse de la matrice B, Soit la matrice A, dordre n, dont on veut trouver
note B1, se calcule de la sorte :
linverse. La mthode itrative consiste { mettre c te
cte la matrice A et la matrice unit I de mme
1
ordre, puis { chelonner A jusqu{ la rendre unit. A1
B =
sera ce que serait devenue la matrice unit { lissue de
o est la matrice adjointe, et nest rien dautre que la
lchelonnement, soit :
transpose de la matrice des cofacteurs Cij, soit :
B1 =
Proprits importantes de linverse dune matrice carre

(i)
(ii)
(iii)
B B1 = I
(B1)1 = B
(BT)1 = (B1)T
(B1)TBT = I
ANNEXE 2 : La fonction DROITEREG dExcel

La fonction DROITEREG dExcel permet dobtenir presque tous les rsultats, en un clic, mis en vidence
dans ce chapitre, et au chapitre prcdent. Il suffit, pour ce faire, de slectionner une plage en
consquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramtres
estimer dans le modle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les
exognes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.
Soit le modle Yt = 0 + 1X1t + 2X2t + 3X3t + ut, la figure ci-dessous montre comment procder sur Excel.
En appuyant simultanment sur les touches CTRL + SHIFT + ENTER, on obtient :
70
ANNEXE 3 : La rgression linaire avec le logiciel Eviews

Sur le logiciel conomtrique Eviews, aprs cration de la feuille de travail et saisie des donnes, aller dans
Quick Estimate Equation, puis entrer les variables, spares par des espaces, dans lordre apparaissant
dans le modle estimer, en notant le terme constant par la lettre C, choisir ensuite la mthode
destimation pour notre cas LS ou Least squares et valider.
En considrant le modle de tout { lheure, on a les tapes suivantes :
En validant, on a les rsultats suivants :

Dependent Variable: Y
Method: Least Squares
Sample: 1 8
Included observations: 8
Variable
C
X1
X2
X3
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
Coefficient
Std. Error
t-Statistic
Prob.
-247.3274
1.133525
2.944909
7.146491
122.8357
0.520299
3.361460
2.286172
-2.013481
2.178604
0.876080
3.125963
0.1143
0.0949
0.4304
0.0353
0.974926
0.956120
8.789365
309.0117
-25.96726
51.84210
0.001169
Mean dependent var

S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
264.3750
41.95895
7.491815
7.531536
7.223914
1.160052
71
Le mme rsultat peut tre obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.
Du tableau des rsultats ci-dessus, appels parfois output de lestimation, il ressort les informations
importantes suivantes :
Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramtre estim, son cart type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estim, la probabilit de commettre lerreur de
premire espce. Si cette probabilit est faible (< 0.05, de manire gnrale) RH0, le paramtre
concern est donc statistiquement significatif (non nul).
Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(Fstatistic) correspondent respectivement au R2, au R2 ajust, au , la SCR, la statistique de
Fisher et la probabilit critique associe la statistique de Fisher.
Mean dependent var et S.D. dependent var reprsentent respectivement la moyenne et lcart
type de la variable dpendante.
Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critres dinformation
intervenant dans le choix du modle optimal. Le meilleur modle tant celui qui minimise ces
critres.
A. Aprs estimation, la srie prdite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la srie) puis valider.
B. Aprs estimation, la srie des rsidus est gnre en saisissant la commande GENR (nom)=resid
72
Exercices sur le modle de rgression linaire multiple

Exercice 1
On examine lvolution dune variable Yt en fonction de deux exognes X1t et X2t. On dispose de n
observations de ces variables. On note X =
o 1 est le vecteur constant et X1 et X2 sont les
vecteurs des variables explicatives.
1. On a obtenu les rsultats suivants :
(a) Donner les valeurs manquantes.

(b) Que vaut n ?
2. La rgression de Y sur la constante et les deux exognes donne :
Yt = - 1.61 + 0.61X1t + 0.46X2t ; SCR = 0.3 ;
=73.48 et = 1.6
(a) Calculer la somme des carrs expliqus (SCE), la somme des carrs totale (SCT), le R2 et le R2 ajust
de Theil.
(b) Dduire la matrice COVA, et tester la significativit individuelle de chaque paramtre ainsi que leur
significativit conjointe.
Exercice 2
Afin de dterminer les facteurs explicatifs de la russite de la licence en sciences conomiques, on spcifie
le modle suivant :
NLi = 0 + 1NDi + 2DSi + ut
o :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisime graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)
Lestimation { partir dun chantillon de 60 tudiants conduit aux rsultats suivants :
= 8.5 + 0.3NDi 1.2DSi
[4.5] [7.1]
[2.3]
n=60
R2=0.72
[.] = t de Student
Travail demand : le sexe a-t-il une influence sur la note obtenue en licence de sciences conomiques ?
La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait dtre homme ou femme est bel et bien un facteur discriminant de la russite de la licence en sciences
conomiques.
73
Il est noter que le signe ngatif affect DS indique quil est pnalisant dtre un homme (DS = 1) et quen
moyenne, sur lchantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
infrieure de 1.2 point celle des femmes, soit 7.3.
Exercice 3
Soit le modle :
Yi = 0 + 1Xi + 2Di1 + 2Di2 + ui
o Yi est le salaire peru par lindividu i ; Xi le nombre dannes dexprience ; Di1 et Di2 deux variables
dummy.
On dispose du tableau ci-dessous :
Ind.
Yi
Xi
1
350
2
2
150
1
3
305
2
4
290
2
5
310
2
6
270
2
7
340
5
8
400
3
9
430
5
10
410
4
11
400
3
12
290
2
Les individus 3, 5, 8, 10, 15, 12 sont des trangers (trangres) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et trangers).
Di1 =
et
Di2 =
Construisez les chroniques Di1 et Di2.
Exercice 4
Soit le modle :
Yt = 0 + 1X1t + 2X2t + ut
On dispose des donnes du tableau ci-dessous :
Yt
10
12
16
18
20
X1t
4
6
5
8
7
X2t
7
4
8
6
9
Travail faire :
(a) Trouver les valeurs du vecteur .
(b) Calculer le coefficient de dtermination R2.
(c) Mener les tests de significativit individuelle sur chaque
paramtre.
Exercice 5
Soit le tableau suivant :
Anne
Yt
X1t
X2t
X3t
1989
220
57
51
34
1990
215
43
53
36
1991
250
63
54
39
1992
245
65
52
38
1993
249
68
53
37
1994
301
69
56
42
74
TD :
-
Si on considre le modle suivant : Yt = 0 + 1X1t + 2X2t + 3X3t + ut, estimer les paramtres 0, 1, 2,
3, et tester leur significativit individuelle et la significativit globale du modle.
Calculer le R2. Quelle critique peut-on formuler lgard de cet indicateur ?
Calculer le 2
Trouver lintervalle de prvision pour 1997 sachant que pour cette dernire anne X1t sera gal
78, X2t sera gal 54 et X3t atteindra 48.
Exercice 6
Soit le modle Yt = 0 + 1X1t + 2X2t + t
o Yt est la quantit offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accorde de
manire journalire et t le terme derreur.
Connaissant les donnes du tableau ci-dessous, il est demand :
- destimer les paramtres 0, 1 et 2.
- de calculer le R2 et le R2 ajust de Theil.
- de montrer que le R2 nest autre que le r de Bravais-Pearson entre Yt et
- de vrifier lquation danalyse de la variance.
- de driver la matrice COVA.
Date
2 janvier 2012
3 janvier 2012
4 janvier 2012
5 janvier 2012
6 janvier 2012
Yt
10
12
16
18
20
X1t
4
6
5
8
7
X2t
7
4
8
6
9
75
.V.
MODELES DE REGRESSION NON LINEAIRES

Comme vu jusquici, lapplication de la mthode des moindres carrs ordinaires exige que le modle soit
linaire ou linarisable en X. Cependant, il est frquent de rencontrer en conomie des modles non
linaires dans leur spcification, comme cest le cas des fonctions de production de type Cobb Douglas et
CES [Constant Elasticity of Substitution].
Les modles non linaires sont gnralement regroups en deux familles, savoir :
Modles non linaires mais linarisables ;

Modles non linaires et non linarisables.
Pour la premire famille de ces modles, le plus souvent, une transformation logarithmique suffit les
rendre linaires, ce qui, du reste, valide leur estimation par les MCO. Et cest prcisment sur ce type de
modles que porte ce chapitre. Quant { la deuxime famille de ces modles, il convient dappliquer les
mthodes destimation non linaire, que nous nabordons pas directement ici.
A titre davertissement, le prsent chapitre na pour objet la prsentation de nouvelles mthodes
destimation. Il prsente plut t les artifices de calcul entendus comme pralables ncessaires
lestimation, par les MCO, de la premire famille de modles non linaires.
V.1. Linarisation des modles non linaires

A. Le modle double log ou log log
Forme : Yt =A
[a]
En appliquant la transformation logarithmique, il

vient :
LnYt = LnA + LnXt + ut
[b]
A prsent, en posant :
= LnYt ; 0 = LnA; 1 = et
=LnXt,
on retrouve ainsi le modle linaire bien connu,

quon peut crire de la sorte :
= 0 + 1
+ ut
Exemple : la forme Cobb Douglas
[c]
Q =AKL.
Avantage : une lecture directe des lasticits.
Forme : Yt =
[m]
La transformation logarithmique de [m] donne :

LnYt = 0 + 1Xt + ut
[n]
Exemple :
La formule de lintrt compos Yt = Y0(1 + r)t [o]
o Y0 est une constante, (1 + r) un paramtre et t le temps
(la variable exogne).
o =
B. Le modle log lin (ou semi-log)
La transformation logarithmique de [o] donne :
=
+
= LnYt,
+ ut
=LnY0,
=Ln(1 + r),
[p]
= t.
Avantage : Le modle [o] permet le calcul du taux de

croissance dune part, et de la tendance (croissante ou
dcroissante) caractrisant lvolution de Yt selon le signe
de (positif ou ngatif) dautre part.
La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a t propose en
1928 ; alors que la CES, appele aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a t introduite en 1961.
76
C. Les modles du trend linaire
D. Le modle lin log (ou semi-log)
Forme : = 0 + 1t+ ut
= LnYt et t =tendance ou trend
Forme :
[i]
En appliquant la transformation logarithmique, il vient :

Avantage : Le modle de trend linaire, appel
galement modle de tendance, peut tre utilis en
lieu et place du modle log lin afin danalyser le
comportement (croissant ou dcroissant) du trend
linaire affectant Yt. En effet, la tendance sera
croissante si le coefficient associ la variable t est
positif et dcroissante dans le cas contraire.
Yt = 0 + 1LnXt+ ut
[ii]
o 1 est une semi-lasticit, soit :
1 =
[iii]
Llasticit peut tre retrouve, en divisant la relation [iii]

par Yt. Et cela est beaucoup plus commode en prenant les
moyennes comme suit :
[iv]
Si lon pose
=LnXt, la relation [ii] est ramene la
formulation standard antrieure comme suit :
Yt = 0 +
+ ut
[v]
Avantage :
Ce modle permet lestimation des modles
dEngle : La dpense totale consacre la
nourriture tend crotre selon une progression
arithmtique lorsque la dpense totale augmente
en progression gomtrique.
Cette forme peut servir galement au traitement
de lhtroscdasticit dont il sera question plus
loin.
E. Les modles rciproques

Forme 1 : Yt = 0 + 1
+ ut
F. Le modle log hyperbole (ou log inverse)

[j]
La forme linaire standard est retrouve en posant

simplement =
, ainsi obtient-on :
Yt = 0 + 1
+ ut
[k]
Cette spcification est notamment utilise pour

estimer la courbe de Phillips, qui est la relation
entre linflation et le taux de chmage.
Forme 2 :
= 0 + 1Xt + ut
Forme : Yt =
En appliquant la transformation logarithmique sur cette
forme, on obtient :
LnYt = 0 + 1
Cette forme sapparente beaucoup { la forme rciproque

sauf que la variable dpendante est exprime sous forme
logarithmique. Quand Xt augmente, LnYt diminue.
[l]
En posant
En posant
= , il vient :
= 0 + 1Xt+ ut
+ ut
et
=LnYt, on obtient :
= 0 + 1
[m]
+ ut
Le modle log-hyperbole est apte reprsenter une

fonction de production de court terme.
G. Le modle polynomial
Forme : Yt =
Une manipulation simple permet dcrire ce modle sous la forme :
77
Yt =
o
=Xt ;
;;
Le modle polynomial trouve des applications dans les cas suivants :

Lestimation dune tendance pour une chronique accusant, par exemple, deux points de retournement :
Yt = 0 + 1t2 + 2t3 + ut
o t reprsente le temps.
Lestimation dune fonction de cot total :

CTt = 0 + 1Qt + 2 + ut
o CT est le cot total et Q la quantit produite.
V.2. Modles de cycle de vie du produit

Les modles de cycle de vie dun produit, appels parfois modles de diffusion, ont pour objet de
dterminer lvolution probable des ventes dun produit connaissant le seuil de saturation, puisquil est
vrifi que les ventes voluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu{
maturit (seuil de saturation) qui correspond { un point dinflexion { partir duquel le rythme de croissance
des ventes diminue.
A. Le modle logistique
B. Le modle de Gompertz
Le modle logistique est aussi connu sous le nom de

modle (ou courbe) de Verhulst, du nom de son
auteur Pierre-Franois Verhulst, qui le proposa en
1838.
Le modle de Gompertz, du nom du mathmaticien

anglais Benjamin Gompertz, a t introduit en 1825.
Forme :
[e]
o Ymax reprsente le seuil de saturation et r la
vitesse de diffusion.
Une manipulation triviale permet dcrire :
Forme : Yt =
o
[x]
est le seuil de saturation et r la vitesse de

diffusion.
Deux
transformations
logarithmiques
sont
ncessaires pour linariser ce type de modles.
Dans un premier temps, la transformation
logarithmique du modle [x] donne :
Aprs
application
de
logarithmique, il vient :
la
transformation
LnYt = brt + a
Aprs manipulation et en log-linarisant, il vient :
= 0 + 1t+ ut
[f]
= 0 + 1t+ ut
[y]
o
; 0 =Lnb et 1=Lnr
Note : Lestimation par OLS de ces deux modles nest possible que si lon ne connat, ou plut t que lon
postule la valeur du seuil de saturation.
o
; 0 =Lnb et 1=Lnr
78
ANNEXE DU CHAPITRE V
La commande NLS dEviews
En effet, plusieurs modles non linaires se prtent facilement, comme vu prcdemment, la linarisation,
ce qui rend beaucoup plus aise leur estimation par la mthode des MCO. Mais lorsque cette gymnastique
de linarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grce { la commande NLS dEviews qui donne lestimation fournie par la mthode des moindres non
linaires , directement estimer de tels modles sans avoir besoin de les rendre linaires.
Exemple
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour
Q
K
L
1
25
12
3
2
28
13
5
3
32
10
9
4
35
15
8
5
39
22
12
6
37
17
13
7
44
21
10
8
40
23
11
9
38
25
14
10
45
20
19
Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les rsultats suivants :
Dependent Variable: Q
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)
C(1)
C(2)
C(3)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
12.45037
0.190189
0.232165
3.586039
0.125849
0.078957
3.471900
1.511251
2.940398
0.0104
0.1745
0.0217
0.823231
0.772726
3.081806
66.48269
-23.66117
Mean dependent var

S.D. dependent var
Schwarz criterion
Durbin-Watson stat
36.30000
6.464433
5.332234
5.423009
2.381746
o les coefficient c(2) et c(3) donnent directement les lasticits du produit au capital et au travail,
respectivement.
79
Exercices sur les modles de rgression non linaires

Exercice 1
Soit le modle log-linaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-aprs qui montre
lvolution des ventes dune entreprise au cours de 15 mois, on demande dajuster cette fonction et de
trouver Y0 et r.
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Yt
10
15
20
18
20
22
24
21
27
26
33
29
34
38
37
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Interprter les rsultats.
Exercice 2
On dispose des informations suivantes sur les ventes des syllabus dconomtrie :
Anne
Ventes
2000
24
2001
36
2002
45
2003
49
2004
54
2005
63
2006
78
2007
79
2008
83
2009
99
On Se propose dajuster, par OLS, sur ces donnes une fonction du type :
Yt =
a) Effectuer cet ajustement en supposant que la valeur du coefficient 0 = 3 ;
b) Donner la valeur de r ;
c) Calculer le coefficient de dtermination R2 ;
Exercice 3
Mmes donnes et mmes questions qu{ lexercice 2, en ajustant le modle suivant :
On prendra Ymax = 10.
Exercice 4
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour
Q
K
L
-
1
25
12
3
2
28
13
5
3
32
10
9
4
35
15
8
5
39
22
12
6
37
17
13
Calculer le R2 et le 2.
Mener le test des rendements dchelle. Les rendements { lchelle sont-ils constants ?
80
.VI.
VIOLATION DES HYPOTHESES DE BASE

En prsentant la mthode des moindres carrs ordinaires, nous avions mis un faisceau dhypothses de
base, sous respect desquelles cette mthode fournissait les meilleurs estimateurs linaires,
convergents et sans biais, et que le thorme de Gauss-Markov tait vrifi. Cependant, dans la pratique, il
est possible que lune ou lautre de ces hypothses fondamentales soit relche.
Ce chapitre prsente donc la fois les tests de vrification et les stratgies adopter en cas de violation
ventuelle de lune ou lautre hypothse.
VI.1. Autocorrlation des erreurs

A. Problme
Il y a autocorrlation des erreurs lorsque lhypothse
est viole. La consquence directe
est que les estimateurs des MCO, bien quils gardent encore leur caractre non biais, ne sont plus
efficients, puisque nayant plus une variance minimale. Formellement, on a :
En absence dautocorrlation
Y = X + U
E(U) = 0
E(UU) =
En prsence dautocorrlation
Y = X + U
E(U) = 0
E(UU) =
Par consquent
les t de Student et F de Fisher ne sont plus
utilisables.
Il faut noter aussi que lautocorrlation des erreurs est un phnomne que lon ne retrouve quen travaillant
sur sries temporelles. En principe, le problme ne se pose pas sur cross sections, sauf le cas rare de
corrlation spatiale des rsidus, qui ne nous intresse pas directement ici.
B. Tests de dtection
On recourt gnralement { deux tests pour dtecter lventuelle autocorrlation des erreurs : le test de
Durbin et Watson et le LM Test de Breush Godfrey.
Le test de Durbin et Watson
Soit le modle linaire simple ci-aprs :
[6.1]
Yt = 0 + 1Xt + ut
Le test trs populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui lon propos en 1951, permet de dtecter une autocorrlation dordre 1, AR(1), selon la forme :
[6.2]
ut = ut1 + vt
o vt est un bruit blanc*********** et
(condition de convergence)
Erreurs homoscdastiques, non autocorrles et normalement distribues. De plus la matrice (XX) doit tre
non singulire, ce qui correspond { assumer labsence de multicolinarit.
***********
Voir annexe 3.
81
On fait donc lhypothse, pour des raisons de simplification, que lerreur nest lie qu{ son pass immdiat.
Et lestimateur de , bas sur les rsidus et issus de la relation [6.2], est donn par :
[6.3]
Or, si n
+,
, ce qui permet dcrire la relation [6.3] de la sorte :

[6.4]
o est le coefficient de corrlation linaire de Bravais Pearson.
Par consquent, varie dans lintervalle [ 1, + 1].

Les hypothses pour mener le test DW sont :
La statistique associe ce test est :

[6.5]
DW = d =
Pour comprendre pourquoi d est une statistique pertinente pour tester lautocorrlation, on rcrit d
comme suit :
d=
En clatant cette somme en ses composantes, on a :
[6.6]
d=
Connaissant la relation [6.3], et en sachant que pour grands chantillons,

[6.7]
DW=d
, [6.5] devient :
Il ressort donc de [6.6] que DW varie de 0 4 :

Valeur de
=1
=0
= 1
Valeur consquente de DW
DW =0
DW=2
DW = 4
Implications
Autocorrlation positive
Absence dautocorrlation
Autocorrlation ngative
Connaissant la taille de lchantillon n, le nombre des variables explicatives k et le risque (5% sauf
indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de
mener le test en situant la statistique calcule DW dans lune des zones du schma ci-aprs :
4 dU
4 dL
Doute
Zone I
Autocorrlation
positive
dU
Doute
dL
Zone II
Absence dautocorrlation
82
Zone III
Autocorrlation
positive
On dira donc quil y a autocorrlation des erreurs (ou prsomption dautocorrlation zone de doute ou
zone dindtermination) si la statistique DW calcule tombe soit dans la zone I, dans lune de deux zones de
doute ou dans la zone III. La zone II tant la seule zone o lon conclurait { lindpendance des erreurs.
Note importante :
La statistique DW ne sinterprte pas lorsque le modle est spcifi en coupe instantane ;

Pour mener le test DW, il est ncessaire que le modle comporte un terme constant. Pour les
modles sans terme constant, il existe des tables statistiques appropries ;
Dans le cas o la rgression comporte, parmi les variables explicatives, la variable dpendante
retarde Yt1 et que les rsidus sont autocorrls dordre 1, la statistique DW est alors biaise vers 2.
Elle ne peut donc tre utilise directement pour tester lautocorrlation. La statistique h
dveloppe par Durbin (1970) doit alors tre utilise.
Le LM Test de Breusch Godfrey [BG]

Comme cela vient dtre expliqu, le test DW ne permet de tester quune autocorrlation dordre 1, soit
AR(1). Or, il est tout fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent tre :
AR(2) :
ut = 1ut1 + 2ut2 + vt
AR(3) :
ut = 1ut1 + 2ut2 + 3ut3 + vt
AR(P) :
ut = 1ut1 + 2ut2 + + putp + vt
A cet effet, Trevor Breusch et Leslie Godfrey ont, sparment, propos, respectivement en 1979 et 1978, un
test qui porte leurs noms, appel aussi test du multiplicateur de Lagrange LM beaucoup plus complet
que le test DW en ce quil permet de tester une autocorrlation des erreurs dordre suprieur { 1, et qui
reste valide en prsence de la variable dpendante dcale en tant que variable explicative.
Soit le modle linaire simple de lquation [6.1] :
Yt = 0 + 1Xt + ut
o ut est prsent AR(p), p tant dterminer.
Comme le test DW, le test BG teste lH0 dabsence dautocorrlation contre H1 de prsence
dautocorrlation, et se droule en trois tapes suivantes :
(1). Estimer par les MCO le modle [6.8] et tirer les rsidus e t de cette estimation ;
(2). Estimer par les MCO lquation intermdiaire suivante :
[6.8]
et = 0 + 1Xt + 1et1 + 2et2 + + petp + ut
Puis y tirer la valeur du R2.
83
(3). Calculer la statistique du test, sachant que ce test peut tre men deux niveaux :
Soit effectuer un test de Fisher classique de nullit des i, comme suit :
Et la statistique du test est dans ce cas :
F
o K est le nombre des paramtres du modle [6.8]
Critre de dcision : Si F > F [(K 1) ; (n K)]
RH0, il y a autocorrlation.
Soit recourir la statistique LM qui suit une distribution du

introduits dans le modle [6.8]. On a :
LM = n R
Critre de dcision : Si LM >
(p)
(p). P tant le nombre de retards
RH0, il y a autocorrlation.
C. Correction dune autocorrlation

Lorsque le test conclut { lvidence dune autocorrlation, la correction se fait en appliquant la mthode
des Moindres Carrs Gnraliss [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste
simplement { lapplication des MCO sur les donnes transformes.
Revenons au modle simple { une variable o le terme derreur suit un processus AR(1) :
[6.9]
Yt = 0 + 1Xt + ut
o ut = ut 1 + vt
En substituant ut, par son expression, dans [6.9], on obtient :

[6.10]
Yt = 0 + 1Xt + ut 1 + vt
o ut 1= Yt 1 0 1Xt 1
Et en tenant compte de ut 1, [6.10] devient :

[6.11]
Yt = 0 + 1Xt + (Yt 1 0 1Xt 1) + vt
En effectuant dans la parenthse et aprs manipulation, il vient :

[6.12]
o
= 0 + 1 + v t
=Yt Yt 1 ; 0 = 0(1 ) ; 1 = 1 et
Une telle transformation est appele : transformation en quasi-diffrences.
= (Xt Xt 1)
84
Lorsque connu, lapplication des MCO sur ce dernier modle donne un estimateur BLUE. Le seul
inconvnient de la transformation en quasi-diffrences qui persisterait serait une perte dinformation, en
loccurrence
et . Afin de contourner cette difficult, Prais et Winsten (1954) ont propos de prendre
en compte la premire observation en utilisant la procdure suivante :
et
Procdures destimation de
Il existe plusieurs mthodes pour estimer , dont les plus populaires sont :
La procdure destimation directe ;

La mthode base sur la statistique DW ;
La mthode itrative de Cochrane-Orcutt.
(a) Procdure
destimation directe
(b) Mthode base sur

(c) Mthode itrative de Cochrane-Orcutt
la statitistique DW
Modle : Y = X + U
[A]
On suppose que les erreurs suivent un processus AR(1) : ut = ut 1 + vt
A partir des rsidus et du A partir de la statistique DW Soit le modle linaire simple :
modle [A], estimer par la issue de lestimation du
Yt = 0 + 1Xt + ut
formule :
modle [A], et connaissant la
o ut = ut 1 + vt
relation [6.7], estimer par
la formule :
En quasi-diffrences, on a :
Yt Yt 1 = 0(1 ) + 1(Xt Xt 1) + vt
ou encore,
chantillons :
pour
grands
o est le coefficient de
corrlation linaire.
En faisant fi de la premire observation que lon

perd, la procdure itrative de Cochrane-Orcutt
se prsente comme suit :
(i)
(ii)
(iii)
(iv)
(v)
Fixer une premire valeur de : on

peut soit donner une valeur priori,
soit =0, soit encore partir de la
valeur de telle que calcule en
(a) ;
Utiliser cette valeur de pour
estimer le modle en quasidiffrences ci-dessus ;
A partir des rsidus
issus de
lestimation effectue en (ii),
restimer par la formule donne
en (a), ce qui permet dobtenir un
1 ;
Utiliser le nouveau calcul en (iii)
pour estimer nouveau le modle
en quasi-diffrences. Les rsidus
issus
de
cette
rgression
permettent dobtenir un 2 :
Et ainsi de suite.
Le processus itratif se termine quand on note

la convergence, cest--dire quand les
coefficients
estims
ne
varient
plus
sensiblement dune rgression { lautre
85
Note : Le logiciel Eviews permet automatiquement deffectuer la correction de lautocorrlation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement dinsrer, la commande
destimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter galement que la
correction de lautocorrlation nest accepte que si le coefficient associ au processus introduit dans le
modle [AR(1), MA(1), etc.] est significatif.
VI.2. Htroscdasticit
A. Problme
Dun point de vue tymologique, le terme htroscdasticit comprend deux mots. Dabord htro qui
fait rfrence plusieurs , ensuite le terme scdasticit , associ la fonction scdastique , qui
signifie variance conditionnelle . Htroscdasticit signifie donc diffrentes variances. On dit quil y a
htroscdasticit lorsque lhypothse de la constance de lerreur
, mise lors de la
prsentation de la mthode des moindres carrs ordinaires, est viole.
Comme pour lautocorrlation, la consquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaiss, ne sont plus efficients, puisque nayant plus une variance minimale. Et par
consquent les t de Student et F de Fisher ne sont plus utilisables { des fins dinfrence.
Il faut noter galement que lhtroscdasticit est un problme qui se pose plus dans les modles spcifis
en coupe transversale que ceux des chroniques.
Il existe toute une batterie de tests permettant de dtecter l htroscdasticit, dont notamment :
Le test de Park
Le test de Goldfeld Quandt
Le test de Glejser
Le test de Breusch Pagan Godfrey
Le test dgalit des variances
Le test de Koenker Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH
Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utiliss dans la pratique.
Le test de White (1980)
Soit le modle linaire multiple suivant :
[6.13]
Yt = 0 + 1X1t + 2X2t + 3X3t + ut
Le test de White, propos par Halbert White en 1980, teste les hypothses suivantes :
Jinvite le lecteur qui dsire prendre connaissance de tous ces tests consulter les manuels de Kintambo
(2004) et Bosonga (2010).
86
Le test de White prsente lavantage quil ne ncessite pas que lon spcifie les variables qui sont { la cause
de lhtroscdasticit.
Pour tester H0, ce test peut se faire de deux faons ci-aprs :
(i)
Test de White avec termes croiss, qui est bas sur lestimation du modle :
[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.
(ii)
Test de White sans termes croiss, bas sur lestimation du modle suivant :
[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.
Ce est bas sur la statistique LM, donne par :

LM = n R2
(m)
o m est le nombre de rgresseurs (exognes) dans lexpression estime.
(m)
RH0, il y a htroscdasticit.
Le test de AutoRegressive Conditionnal Heteroscedasticity (Test ARCH)

Les hypothses formuler pour ce test sont :
Partant des rsidus et issus de lestimation du modle [6.13], la dtection de lhtroscdasticit par le test
ARCH se fait en rgressant le carr des rsidus et sur leurs dcalages puissance deux, soit :
[6.15]
Le test est fond soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :
LM = n R2
(m)
o m est le nombre de rgresseurs (exognes) prsents dans le modle [6.15].
(m)
RH0, il y a htroscdasticit.
Le nombre de retards tant dterminer.
87
C. Correction de lhtroscdasticit
Soit le modle :
Yi = 0 + 1Xi + ui
La correction de lhtroscdasticit se fait en appliquant les moindres carrs pondrs, cest--dire les
moindres carrs ordinaires sur lun des modles transforms ci-dessous :
(1)
si E(
(2)
si E(
(3)
si E(
VI.3. Multicolinarit
A. Problme
Il y a multicolinarit lorsque lhypothse de lorthogonalit des exognes ou encore de leur indpendance
linaire
est relche. Dans ce cas, la mthode des moindres carrs ordinaires est dfaillante et il
devient difficile disoler limpact individuel de chaque exogne sur lendogne.
On distingue gnralement deux types de multicolinarit : la multicolinarit parfaite ou exacte et la quasi
multicolinarit ou multicolinarit imparfaite.
En cas de multicolinarit parfaite, la matrice
est singulire, et par consquent son inverse (
)1
nexiste pas, ce qui rend la mthode OLS compltement dfaillante ; il est nest donc pas possible devant
une telle situation destimer les paramtres du modle.
Dans la pratique, cest plut t le cas de quasi multicolinarit qui est frquent. En effet, la multicolinarit
imparfaite correspond au cas o la matrice
est non singulire, mais son dterminant est proche de 0. La
consquence directe est quon aura des valeurs trs grandes dans la matrice inverse (
)1 qui, par la
mthode classique, est calcule comme suit :
[6.16]
Dans [6.16], si
(
0, la matrice (
)1 =
)1 aura des valeurs de plus en plus grandes, la matrice COVA
) galement. La consquence, et donc le problme pos par la multicolinarit est que, du
fait de la valeur leve des variances des coefficients estims, les rsultats de lestimation perdent en prcision,
cest--dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont levs.
Lautre problme pos par la multicolinarit est linstabilit de paramtre et leffet de masque qui rend difficile
la mise en vidence de la contribution individuelle de diffrentes variables explicatives sur lendogne.
Note : Si les problmes dautocorrlation des erreurs et dhtroscdasticit peuvent se poser quel que soit
le nombre dexognes intervenant dans le modle, le problme de multicolinarit, en revanche, na de
sens que dans un modle de rgression linaire multiple.
La notion de multicolinarit a t introduite, dans les annes 50, par Lawrence Klein.
88
Les tests de dtection de la multicolinarit les plus populaires sont le test de Klein et le test de Farrar et
Glauber.
Le test de Klein
Soit le modle :
Le test de Klein se fait en trois tapes que voici :

(a) Estimer le modle [6.17] et calculer le R2 ;
(b) Calculer la matrice des coefficients de corrlation linaire entre variables exognes, prises deux
deux, soit :
(c) Comparer, enfin, le R2 de la rgression aux diffrents coefficients de corrlation. Il y a prsomption

de multicolinarit si au moins un des
lev au carr est suprieur au R2.
Note : Le test de Klein nest pas un test statistique au sens test dhypothses mais simplement un critre de
prsomption de multicolinarit. Cest pourquoi il doit tre complt par le test de Farrar et Glauber qui est
bien un test statistique.
Le test de Farrar et Glauber
Le test de Farrar et Glauber teste les hypothses suivantes :
Ce test est bas sur la statistique du
, calcule { partir de lchantillon comme suit :
o n est la taille de lchantillon ; K le nombre de paramtres ; Ln le logarithme nprien et D le dterminant de

la matrice des coefficients de corrlation linaire entre exognes, soit :
89
D=
est le nombre de degrs de libert.

Critre de dcision : si
>
RH0.
C. Remdes la multicolinarit
Parmi les techniques permettant dliminer la multicolinarit, on peut citer :
Augmenter la taille de lchantillon

Appliquer la Ridge Regression qui est une rponse purement numrique, il sagit de transformer
la matrice
en une matrice (
) o k est une constante choisie arbitrairement qui et I la
matrice unit.
Face ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spcification du modle,
liminer les sries explicatives susceptibles de reprsenter les mmes phnomnes et donc dtre corrles
entre elles, ceci afin dviter leffet masque ************.
VI.4. Normalit des erreurs

A. Problme
Le problme dabsence de normalit se pose lorsque lhypothse ut
(0,
) est viole. A titre de rappel,
lhypothse de normalit, mise lors de la prsentation de la mthode OLS, est la cl de linfrence

statistique. Elle est donc ncessaire pour mener les tests statistiques et construire les intervalles de
confiance. Sa violation ne touche pas le caractre non biais des paramtres mais rend linfrence, dans le
modle linaire, impossible car les distributions des estimateurs ne sont plus connues.
Les tests de normalit ont t rigoureusement prsents dans la partie introductive de ce recueil portant
sur les rappels statistiques, le lecteur est donc convi { sy rapporter.
C. Remdes la non-normalit des rsidus
Le meilleur remde la non-normalit des rsidus est dagrandir la taille de lchantillon. La transformation
de Box Cox, sur les variables non normales intervenant dans le modle, est souvent aussi indique.
************
Bourbonnais (2005).
90
Exercices sur le chapitre 6

Exercice 1
Soit le modle ci-aprs :
Yt = 0 + 1X1t + 2X2t + t
(t= 1, , n) et n=30
o
En lestimant par OLS, on a obtenu
=0,52 et
=0,28. On aussi calcul la statistique de Durbin-Watson :
d=DW=0,78.
a) Effectuer, au seuil de 5%, le test dhypothse 2=0.
b) Que faut-il penser de lhypothse de non autocorrlation des rsidus ?
Exercice 2
En cherchant { expliquer le phnomne russite en conomtrie, en 2012, lassistant Dandy Matata a
spcifi le modle suivant :
Yi = 0 + 1X1i + 2X2i + i
o Yi est la cote obtenue en conomtrie par ltudiant i ; X1i est la prsence au cours dconomtrie et X2i le
nombre dheures dtudes consacres { ce cours.
15 tudiants ont t chantillonns. Lestimation a permis de calculer la statistique DW = 0.4.
Tester lautocorrlation du premier ordre dans le modle spcifi par lassistant Matata.
Exercice 3
Soit lchantillon de taille n=5 :
Yt
8
2
6
0
4
Yt=20
X1t
3
1
3
1
2
X1t=10
X2t
6
2
6
2
4
X2t=20
(a) Quel est le problme pos par lestimation du modle :

Yt = a + bX1t + dX2t + ut
(b) Comment peut-on le rsoudre ?
Exercice 4
Au regard des rsultats ci-aprs, sur lestimation de lhypothse de Kuznet en RDC pour la priode allant de
1975 2011, quel problme, selon vous, sest pos dans lestimation de cette relation ? Par quoi le voyezvous ?
Variable endogne : IGI

Mthode destimation : Moindres carrs ordinaires
Variables explicatives
Coefficients
Constante
0.453311
PIBH
0.000813
2
PIBH
- 0.00000426
R2 = 0.891141
R2 ajust = 0.873561
t- statistic
0.784894
0.268563
- 0.772470
91
Probabilit critique
0.4417
0.7910
0.4489
F stat. = 114.9272
o IGI est le coefficient dingalit de GINI et PIBH le PIB rel par habitant.
Exercice 5
Le tableau ci-dessous reporte les rsultats du test de White, aprs estimation de la relation entre coefficient
dingalit de GINI (IGI) et le PIB rel par habitant (PIBH) en RDC.
White Heteroskedasticity Test:
F-statistic
Obs*R-squared
6.482164
Probability
0.004122
10.21371
Probability
0.006055
Test Equation:
Dependent Variable: RESID^2
Date: 06/25/12 Time: 15:46
Sample: 1975 2011
Variable
Coefficient
Std. Error
t-Statistic
Prob.
-18.82177
41.99457
-0.448195
0.6569
LPIB
1.623484
3.731230
0.435107
0.6662
LPIB^2
-0.034949
0.082874
-0.421711
0.6759
R-squared
0.276046
Mean dependent var
0.014520
Adjusted R-squared
0.233461
S.D. dependent var
0.019998
S.E. of regression
0.017509
-5.174612
Sum squared resid
0.010423
Schwarz criterion
Log likelihood
98.73032
F-statistic
6.482164
Durbin-Watson stat
0.214247
Prob(F-statistic)
0.004122
-5.043997
Travail demand :
Aprs avoir rappel les principales caractristiques de ce test (hypothses nulle et alternative, principe
gnral du test, rgle de dcision), commenter les rsultats. Conclure quant la nature des rsidus.
Rappel : la valeur critique de la loi du Khi-deux 2 degrs de libert et au seuil de 5% est gale 5,991.
92
ANNEXES
ANNEXE 1 : TABLES STATISTIQUES
Test de Shapiro et Wilk [table des coefficients]
n
J
1
2
3
4
5
n
J
1
2
3
4
5
6
7
8
9
10
n
J
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
10
0.7071
0.7071
0.0000
0.6872
0.1677
0.6646
0.2413
0.0000
0.6431
0.2806
0.0875
0.6233
0.3031
0.1401
0.0000
0.6052
0.3164
0.1743
0.0561
0.5888
0.3244
0.1976
0.0947
0.0000
0.5739
0.3291
0.2141
0.1224
0.0399
11
12
13
14
15
16
17
18
19
20
0.5601
0.3315
0.2260
0.1429
0.0695
0.0000
0.5475
0.3325
0.2347
0.1586
0.0922
0.0303
0.5359
0.3325
0.2412
0.1707
0.1099
0.0539
0.0000
0.5251
0.3318
0.2460
0.1802
0.1240
0.0727
0.0240
0.5150
0.3306
0.2495
0.1878
0.1353
0.0880
0.0433
0.0000
0.5056
0.3290
0.2521
0.1939
0.1447
0.1005
0.0593
0.0196
0.4963
0.3273
0.2540
0.1988
0.1524
0.1109
0.0725
0.0359
0.0000
0.4886
0.3253
0.2553
0.2027
0.1587
0.1197
0.0837
0.0496
0.0163
0.4808
0.3232
0.2561
0.2059
0.1641
0.1271
0.0932
0.0612
0.0303
0.0000
0.4734
0.3211
0.2565
0.2085
0.1686
0.1334
0.1013
0.0711
0.0422
0.0140
21
22
23
24
25
26
27
28
29
30
0.4643
0.3185
0.2578
0.2119
0.1736
0.1399
0.1092
0.0804
0.0530
0.0263
0.0000
0.4590
0.3156
0.2571
0.2131
0.1764
0.1443
0.1150
0.0878
0.0618
0.0368
0.0122
0.4542
0.3126
0.2563
0.2139
0.1787
0.1480
0.1201
0.0941
0.0696
0.0459
0.0228
0.0000
0.4493
0.3098
0.2554
0.2145
0.1807
0.1512
0.1245
0.0997
0.0764
0.0539
0.0321
0.0107
0.4450
0.3069
0.2543
0.2148
0.1822
0.1539
0.1283
0.1046
0.0823
0.0610
0.0403
0.0200
0.0000
0.4407
0.3043
0.2533
0.2151
0.1836
0.1563
0.1316
0.1089
0.0876
0.0672
0.0476
0.0284
0.0094
0.4366
0.3018
0.2522
0.2152
0.1848
0.1584
0.1346
0.1128
0.0923
0.0728
0.0540
0.0358
0.0178
0.0000
0.4328
0.2992
0.2510
0.2151
0.1857
0.1601
0.1372
0.1162
0.0965
0.0778
0.0598
0.0424
0.0253
0.0084
0.4291
0.2968
0.2499
0.2150
0.1064
0.1616
0.1395
0.1192
0.1002
0.0822
0.0650
0.0483
0.0320
0.0159
0.0000
0.4254
0.2944
0.2487
0.2148
0.1870
0.1630
0.1415
0.1219
0.1036
0.0862
0.0697
0.0537
0.0381
0.0227
0.0076
Test de Shapiro et Wilk [Table des valeurs limites de W]

N
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
W 95%
0.842
0.850
0.859
0.856
0.874
0.881
0.837
0.892
0.897
0.901
0.905
0.908
0.911
0.914
0.916
0.918
0.920
0.923
0.924
0.926
0.927
0.929
0.930
0.931
0.933
0.934
0.935
0.936
0.938
0.939
0.940
0.941
0.942
0.943
0.944
0.945
0.945
0.946
0.947
0.947
0.947
W 99%
0.781
0.792
0.805
0.814
0.825
0.835
0.844
0.851
0.858
0.863
0.868
0.873
0.878
0.881
0.884
0.888
0.891
0.894
0.896
0.898
0.900
0.902
0.904
0.906
0.908
0.910
0.912
0.914
0.916
0.917
0.919
0.920
0.922
0.923
0.924
0.926
0.927
0.928
0.929
0.929
0.930
93
94
Table de distribution de la loi T de Student [Test bilatral]

(Valeurs de T ayant la probabilit P d'tre dpasse en valeur absolue)
Pr
ddl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
80
120
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.05
0.02
0.01
0.001
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.137
0.127
0.127
0.127
0.126
0.126
0.126
0.126
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.255
0.254
0.254
0.253
0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.388
0.387
0.386
0.385
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
0.540
0.539
0.538
0 537
0.536
0.535
0.534
0.534
0.533
0.533
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0 530
0.530
0.529
0.527
0.526
0.524
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0 688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.677
0.674
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.961
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.851
0.848
0.845
0.842
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.050
1.046
1.041
1.036
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
1.282
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
1.645
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.263
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
1.960
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.358
2.326
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.617
2.576
636.619
31.598
12.929
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.767
3.745
3.725
3.707
3.690
3.674
3.649
3.656
3.551
3.460
3.373
3.291
95
Table de distribution de la loi F de Fisher-Snedecor

(Valeurs de F ayant la probabilit d'tre dpasses : F = S12/S22)
Nu2
1
2
3
4
3
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
Nu1 = 1
= 0.05 = 0.01
161.4
4052.00
18.51
98.49
10.13
34.12
7.71
21.20
6.61
16.26
3.99
13.74
3.39
12.23
3.32
11.26
5.12
10.56
4.96
10.04
4.84
9.65
4.75
9.33
4.67
9.07
4.60
8.86
4.34
8.68
4.49
8.53
4.45
8.40
4.41
8.28
4.38
8.18
4.35
8.10
4.32
8.02
4.30
7.94
4.28
7.88
4.26
7.82
4.24
7.77
4.22
7.72
4.21
7.68
4.20
7.64
4.18
7.60
4.17
7.56
4.08
7.31
4.00
7.08
3.92
6.85
3.84
6.64
Nu1 = 2
= 0.05
= 0.01
199.5
4999.00
19.00
99.00
9.55
30.81
6.94
18.00
5.79
13.27
3.14
10.91
4.74
9.35
4.46
8.63
4.26
8.02
4.10
7.56
3.98
7.20
3.88
6.93
3.80
6.70
3.74
6.31
3.68
6.36
3.63
6.23
3.59
6.11
3.53
6.01
3.52
5.93
3.49
5.85
3.47
5.78
3.44
5.72
3.42
5.66
3.40
5.61
3.38
5.37
3.37
5.33
3.33
5.49
3.34
5.43
3.33
5.42
3.32
5.39
3.23
5.18
3.15
4.98
3.07
4.79
2.99
4.60
Nu1 = 3
= 0.05 = 0.01
213.7
3403.00
19.16
99.17
9.28
29.46
6.59
16.69
5.41
12.06
4.76
9.78
4.33
8.43
4.07
7.39
3.86
6.99
3.71
6.33
3.59
6.22
3.49
5.93
3.41
5.74
3.34
5.56
3.29
5.42
3.24
5.29
3.20
5.18
3.16
5.09
3.13
5.01
3.10
4.94
3.07
4.87
3.05
4.82
3.03
4.76
3.01
4.72
2.99
4.68
2.98
4.64
2.96
4.60
2.95
4.57
2.93
4.34
2.92
4.31
2.84
4.31
2.76
4.13
2.68
3.93
2.60
3.78
Nu1 = 4
= 0.05
= 0.01
224.6
5625.00
19.25
99.25
9.12
28.71
6.39
13.98
5.19
11.39
4.53
9.13
4.12
7.85
3.84
7.01
3.63
6.42
3.48
5.99
3.36
5.67
3.26
5.41
3.18
5.20
3.11
5.03
3.06
4.89
3.01
4.77
2.96
4.67
2.93
4.58
2.90
4.50
2.87
4.43
2.84
4.37
2.82
4.31
2.80
4.26
2.78
4.22
2.76
4.18
2.74
4.14
2.73
4.11
2.71
4.07
2.70
4.04
2.69
4.02
2.61
3.83
2.32
3.65
2.43
3.48
2.37
3.32
Nu1 = 5
= 0.05 = 0.01
230.2
5764.00
19.30
99.30
9.01
28.24
6.26
13.32
5.03
10.97
4.39
8.75
3.97
7.45
3.69
6.63
3.48
6.06
3.33
5.64
3.20
5.32
3.11
5.06
3.02
4.86
2.96
4.69
2.90
4.56
2.85
4.44
2.81
4.34
2.77
4.25
2.74
4.17
2.71
4.10
2.68
4.04
2.66
3.99
2.64
3.94
2.62
3.90
2.60
3.86
2.39
3.82
2.37
3.78
2.56
3.75
2.34
3.73
2.53
3.70
2.43
3.31
2.37
3.34
2.29
3.17
2.21
3.02
S12 est la plus grande des deux variances estimes. avec n degrs de libert au numrateur.
96
Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 5 %.
2
Autocorrlation
positive
Absence
dautocorrlation
DOUTE
dL
du
Autocorrlation
ngative
DOUTE
4-du
4-dL
k=1
k=2
k=3
k=4
k=5
n
dL
du
dL
du
dL
du
dL
du
dL
du
15
1.08
1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16
1.10
1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17
1.13
1.38
1.02
1.54 0.90 1.71
0.78
1.91 0.67 2.10
18
1.16
1.39
1.05
1.53 0.93 1.69 0.82 1.87
0.71 2.06
19
1.18
1.40 1.08
1.53 0.97 1.68 0.86 1.85 0.75 2.02
20
1.20
1.41
1.10
1.54 1.00 1.68 0.90 1.83 0.79 1.99
21
1.22
1.42
1.13
1.54
1.03
1.67 0.93 1.81 0.83 1.96
22
1.24
1.43
1.15
1.54
1.05 1.66 0.96 1.80 0.86 1.94
23
1.26
1.44
1.17
1.54 1.08 1.66 0.99 1.79 0.90 1.92
24
1.27
1.45
1.19
1.55
1.10
1.66
1.01
1.78 0.93 1.90
25
1.29
1.45
1.21
1.55
1.12
1.66 1.04
1.77 0.95 1.89
26
1.30
1.46
1.22
1.55
1.14
1.65 1.06 1.76 0.98 1.88
27
1.32
1.47
1.24
1.56
1.16
1.65 1.08 1.76
1.01
1.86
28
1.33
1.48 1.26
1.56
1.18
1.65
1.10
1.75
1.03
1.85
29
1.34
1.48
1.27
1.56
1.20
1.65
1.12
1.74
1.05
1.84
30
1.35
1.49 1.28
1.57
1.21
1.65
1.14
1.74
1.07
1.83
31
1.36
1.50
1.30
1.57
1.23
1.65
1.16
1.74
1.09 1.83
32
1.37
1.50
1.31
1.57
1.24
1.65
1.18
1.73
1.11
1.82
33
1.38
1.51
1.32
1.58
1.26
1.65
1.19
1.73
1.13
1.81
34
1.39
1.51
1.33
1.58
1.27
1.65
1.21
1.73
1.15
1.81
35
1.40
1.52
1.34
1.58
1.28
1.65
1.22
1.73
1.16
1.80
36
1.41
1.52
1.35
1.59
1.29
1.65
1.24
1.73
1.18
1.80
37
1.42
1.53
1.36
1.59
1.31
1.66
1.25
1.72
1.19
1.80
38
1.43
1.54
1.37
1.59
1.32
1.66 1.26
1.72
1.21
1.79
39
1.43
1.54
1.38 1.60
1.33
1.66
1.27
1.72
1.22
1.79
40
1.44
1.54
1.39 1.60 1.34
1.66 1.29
1.72
1.23
1.79
45
1.48
1.57
1.43
1.62
1.38
1.67
1.34
1.72
1.29
1.78
50
1.50
1.59 1.46 1.63
1.42
1.67
1.38
1.72
1.34
1.77
55
1.53
1.60 1.49 1.64 1.45 1.68
1.41
1.72
1.38
1.77
60
1.55
1.62
1.51
1.65 1.48 1.69 1.44
1.73
1.41
1.77
65
1.57
1.63
1.54 1.66 1.50
1.70
1.47
1.73
1.44
1.77
70
1.58
1.64
1.55
1.67
1.52
1.70
1.49 1.74
1.46
1.77
75
1.60
1.65
1.57
1.68 1.54
1.71
1.51
1.74
1.49
1.77
80
1.61
1.66 1.59 1.69 1.56
1.72
1.53
1.74
1.51
1.77
85
1.62
1.67 1.60 1.70
1.57
1.72
1.55
1.75
1.52
1.77
90
1.63
1.68
1.61
1.70
1.59
1.73
1.57
1.75
1.54
1.78
95
1.64
1.69 1.62
1.71
1.60
1.73
1.58
1.75
1.56
1.78
100 1.65
1.69 1.63
1.72
1.61
1.74
1.59
1.76
1.57
1.78
k : nombre de variables exognes; n : nombre dobservations et = 0.05.
Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 1 %.
2
Autocorrlation
positive
n
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
55
60
65
70
75
80
85
90
95
100
Absence
dautocorrlation
DOUTE
dL
du
Autocorrlation
ngative
DOUTE
4-du
4-dL
k=1
k=2
k=3
k=4
k=5
dL
du
dL
du
dL
du
dL
du
dL
du
0.81
1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96
0.84
1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90
0.87
1.10
0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85
0.90
1.12 0.80 1.26
0.71
1.42 0.61 1.60 0.52 1.80
0.93
1.13
0.83 1.26 0.74
1.41 0.65 1.58 0.56 1.77
0.95
1.15 0.86 1.27
0.77
1.41 0.68 1.57 0.60 1.74
0.97
1.16 0.89 1.27 0.80 1.41
0.72 1.55 0.63
1.71
1.00
1.17
0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69
1.02
1.19 0.94 1.29 0.86 1.40 0.77
1.53 0.70 1.67
1.04
1.20 0.96 1.30 0.88 1.41 0.80 1.53
0.72 1.66
1.05
1.21 0.98 1.30 0.90 1.41 0.83 1.52
0.75 1.65
1.07
1.22
1.00
1.31
0.93 1.41 0.85 1.52 0.78 1.64
1.09
1.23
1.02
1.32 0.95 1.41 0.88 1.51
0.81 1.63
1.10
1.24
1.04
1.32 0.97 1.41 0.90 1.51
0.83 1.62
1.12
1.25
1.05
1.33 0.99 1.42 0.92
1.51
0.85 1.61
1.13
1.26
1.07
1.34
1.01
1.42 0.94 1.51 0.88 1.61
1.15
1.27
1.08 1.34
1.02
1.42 0.96 1.51 0.90 1.60
1.16
1.28
1.10
1.35
1.04 1.43 0.98 1.51
0.92 1.60
1.17
1.29
1.11
1.36
1.05
1.43 1.00
1.51 0.94 1.59
1.18
1.30
1.13
1.36
1.07
1.43
1.01
1.51
0.95 1.59
1.19
1.31
1.14
1.37
1.08 1.44 1.03
1.51
0.97 1.59
1.21
1.32
1.15
1.38
1.10
1.44 1.04
1.51 0.99 1.59
1.22
1.32
1.16
1.38
1.11
1.45 1.06
1.51
1.00 1.59
1.23
1.33
1.18
1.39
1.12
1.45
1.07
1.52
1.02
1.58
1.24
1.34
1.19
1.39
1.14
1.45 1.09
1.52
1.03
1.58
1.25
1.34
1.20
1.40
1.15
1.46
1.10
1.52
1.05
1.58
1.29
1.38
1.24
1.42
1.20
1.48
1.16
1.53
1.11
1.58
1.32
1.40 1.28
1.45
1.24
1.49 1.20
1.54
1.16
1.59
1.36
1.43
1.32
1.47
1.28
1.51
1.25
1.55
1.21
1.59
1.38
1.45
1.35
1.48
1.32
1.52
1.28
1.56
1.25
1.60
1.41
1.47
1.38
1.50
1.35
1.53
1.31
1.57
1.28
1.61
1.43
1.49 1.40
1.52
1.37
1.55
1.34
1.58
1.31
1.61
1.45
1.50
1.42
1.53
1.39
1.56
1.37
1.59
1.34
1.62
1.47
1.52
1.44
1.54
1.42
1.57
1.39 1.60 1.36
1.62
1.48
1.53
1.46
1.55
1.43
1.58
1.41
1.60 1.39
1.63
1.50
1.54
1.47
1.56
1.45
1.59
1.43
1.61
1.41
1.64
1.51
1.55
1.49
1.57
1.47
1.60 1.45
1.62
1.42
1.64
1.52
1.56
1.50
1.58
1.48 1.60 1.46 1.63
1.44 1.65
k : nombre de variables exognes; n : nombre dobservations et = 0.01.
97
98
ANNEXE 2 : INITIATION AU LOGICIEL ECONOMETRIQUE EVIEWS

Les machines un jour pourront rsoudre tous les problmes, mais jamais aucune d'entre elles ne pourra en poser un !
Albert Einstein
Lancement de lcran daccueil Eviews
Une fois install, le logiciel Eviews est lanc comme tout autre en double-cliquant sur licne Eviews au
bureau.
Barre de menu
Voici comment se prsente Eviews au lancement :
Barre de commande
Cration dune feuille de travail [workfile]

Le travail sur Eviews commence par la cration dune feuille de travail o lon spcifie essentiellement la
frquence des donnes [annuelles, trimestrielles, mensuelles, etc.], leur nature [rgulires, irrgulire,
panel] et la taille de lchantillon. Cette opration peut se faire de deux manires :
(a) Dans la barre de menu, aller dans File
New
Une bote de dialogue souvre o il faut distinguer trois zones.
Workfile
Ici, prciser la frquence des donnes et la

taille de lchantillon. Cette zone change selon
que les donnes sont rgulires [pour sries
temporelles], irrgulires [pour sries en
coupes transversales] ou en panel.
Dans cette zone, donner un nom la feuille

de travail cre. Comme sur Excel, Eviews
donne galement la possibilit de travailler
sur plusieurs pages. Dans page on peut les
particulariser en tapant un nom.
Ici, prciser si les donnes sont rgulires,
irrgulires ou en panel]
99
Supposons que lon ait une srie temporelle annuelle, qui va de 2000 2010. Il suffira de choisir :
-
Dated regular frenquency dans longlet Workfile structure type

Annual dans longle Frenquency
Puis prciser la taille de lchantillon dans Start date et End date.
Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette premire page [EXERCICE par
exemple] :
En cliquant sur OK, la feuille de travail est cre.

(b) Dans la barre de commande, saisir la commande create a 2000 2010
Note : Eviews nest pas sensible la casse !
Cration des variables et saisie des donnes dans Eviews
Considrons, pour la priode 2000-2010, les statistiques sur le taux de croissance du PIB [note TCPIB]
et le taux de chmage [note CHOM], produites par la BCC.
Pour crer les deux sries, dans la barre de commande, on saisit la commande data TCPIB CHOM puis
Enter.
Une fois les deux sries cres, on peut soit :
-
saisir les donnes comme on le ferait sur Excel

si les donnes sont saisies sur Excel, les copier-coller, srie par srie [aprs avoir pris soin de
remplacer toutes les virgules ventuelles par des points]
importer les donnes partir dExcel dans Eviews
A partir dExcel, importation des donnes dans Eviews

Suivre les tapes ci-aprs :
1. Enregistrer les donnes saisies sur Excel sous Excel 97-2003, en ayant en mmoire juste les noms
donns aux sries, puis fermer le fichier ;
2. Dans Eviews, crer une feuille de travail avec la mme taille dchantillon que les donnes
enregistres sur Excel. Puis crer les variables avec les mmes noms que sur Excel.
Import
Read Text-Lotus-Excel Une bote
de dialogue apparat o il faut reprendre le nom du fichier Excel. Rechercher le fichier o il a t
enregistr, puis le slectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider.
4. Une nouvelle bote de dialogue apparat. L, dans Names of series or number if named in file, taper
les noms des sries dans le mme ordre que sur Excel, puis OK.
3. Dans la barre de Menu Eviews, aller dans File
100
Illustration de ltape 3
Illustration de ltape 4
En validant, Eviews importe automatiquement toutes les donnes partir dExcel.

Statistique descriptive des donnes et graphiques
En un clic, Eviews peut galement fournir les paramtres essentiels de position, de dispersion et de
forme dune srie. Ce qui permet par exemple, pour grand chantillon, de trancher sur la conformit
dune distribution la loi normale partir de la statistique de Jarque Bera.
Pour avoir ces informations, aller dans la barre de commande Eviews et saisir la commande stats TCPIB
CHOM puis Enter [la commande est stats suivi du (des) nom(s) de(s) la variable(s)].
Pour les deux sries de notre exemple, on obtient :
101
On lit par exemple, pour chaque srie, sa Moyenne [Mean], sa Mdiane [Median], son Maximum, son
Minimum, son Ecart-Type [Std. Dev.], son coefficient dasymtrie [Skewness], son coefficient
daplatissement [Kurtosis], sa statistique Jarque Bera, etc
De mme, il y a lieu davoir les mmes rsultats, dans la barre de commande, saisir la commande show
TCPIB CHOM puis valider, dans la fentre qui souvre, aller dans View
Descriptive Stats
Common Sample.
Graphiques
Dans la barre de commande, saisir les commandes :
scat TCPIB CHOM [pour un nuage des points]

line TCPIB CHOM [pour avoir des lignes]
Pour avoir dautres types de graphiques proposs par Eviews, dans la fentre des donnes, aller dans
View
Graph. Puis valider le graphique de son choix.
Estimation du coefficient des coefficients de corrlation de Bravais Pearson et de Spearman

Aprs avoir affich les deux variables que lon veut mettre en cause, il suffit daller dans View
Covariance Analysis. En validant, Eviews renvoie une bote, o on a la possibilit de choisir soit un
coefficient paramtrique (Bravais-Pearson) ou non paramtrique (Spearman) :
102
Si on choisit par exemple ordinary [corrlation paramtrique, Bravais-Pearson], on obtient :
Covariance Analysis: Ordinary

Date: 06/21/12 Time: 04:18
Sample: 1 11
TCPIB
CHOM
CHOM
TCPIB
TCPIB
CHOM
Correlation
t-Statistic
Probability
Observ.
1.000000
-0.677304
1.000000
-----2.761860
-----
----0.0220
-----
11
11
11
Eviews renvoie le coefficient, son Student et la probabilit critique, ce qui facilite beaucoup
linterprtation des rsultats, avec comme critre : rejeter H0 si probabilit critique < au seuil de
signification.
Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chmage et la
croissance du PIB en RDC, pour la priode 2000-2010, la loi dOkun se vrifie-t-elle ?
Estimation par OLS du modle linaire et tests

Pour estimer par OLS, il suffit daller dans Quick
Estimate Equation, puis entrer les variables, spares
par des espaces, dans lordre apparaissant dans le modle estimer, en notant le terme constant par la
lettre C, choisir ensuite la mthode destimation pour notre cas LS ou Least squares et valider.
Le mme rsultat peut tre aussi obtenu en saisissant, sur la barre de commande Eviews, la commande
LS suivi de nom de la variable endogne C noms des variables exognes spares deux deux par un
espace
Pour estimer un modle sans terme constant, il suffit de retirer C dans la commande passer.
Tests
Aprs avoir lanc la commande destimation par OLS, tous les tests portant sur les rsidus figurent dans
longlet Residuals Tests.
103
ANNEXE 3 : UN MOT SUR LES TESTS DE RACINE UNITAIRE ADF ET PHILLIPS-PERRON
Laboratoire dAnalyse Recherche en Economie Quantitative

One pager
Avril 2012
Numro-010
Lien : http://www.lareq.com
Processus stochastique et absence de trend

Une interprtation prudente et plus attentive
Cdrick Tombola Muke

"Dieu ne joue pas aux ds"
Albert Einstein
Avertissement
Ce papier est crit dans lobjectif de mettre en garde contre le risque des conclusions errones lors des
tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est crit au moment o, parmi la plupart
de nos tudiants du niveau de la licence, la mauvaise procdure et la mauvaise interprtation de ces
tests ont gagn le terrain.
Lobjet de notre papier repose sur le fait que nombre dconomtres en herbe, en menant ces tests,
oublient que ceux-ci considrent que la composante dterministe suit une tendance linaire et quun
processus DS (stationnaire en dme diffrence) nexclut pas la possibilit dun trend dun autre type.
De plus, ironie du sort, on ne pense dtecter la nature du trend que si les tests concluent une non
stationnarit dterministe et quil convient dappliquer lcart la tendance. Ce qui, curieusement,
revient accepter la possibilit davoir un trend de type non linaire dont on ne sest pas donn la peine
de dtecter au dbut du test.
Que faire ? Ce papier se propose de rpondre, prudemment, cette question, dabord en privilgiant les
aspects thoriques, ensuite en considrant une tude des cas qui permet de mettre en exergue la
problmatique souleve ci-dessus.
I.
Processus non stationnaire
A titre de rappel, un processus est stationnaire, au sens faible, si ses moments dordre 1 et dordre 2
sont indpendants du temps. Dans le cas contraire, il est dit non stationnaire. Pour ce dernier type de
chroniques, lune au moins de trois conditions ci-aprs est viole :
(i)
E(Yt) =
(ii)
E(
(iii)
Cov (Yt, Yt+k) = k ou -k
)=
Les travaux pionniers de Nelson et Plosser (1982), qui ont soulign la prsence dune racine unitaire dans
les principales sries macroconomiques, distinguent en effet deux types de processus dans la famille
des processus non stationnaires :
104
Les processus TS [Trend Stationary] qui sexpriment comme une fonction du temps et dun bruit
blanc :
Yt = f(t) + Zt
o Zt est un bruit blanc [white noise]
Ce type de processus est rendu stationnaire en lui retirant sa tendance dterministe [Zt = Yt - f(t)].
Les processus DS [Differency Stationary] qui sont caractriss par la prsence dau moins une
racine unitaire. De tels processus sont rendus stationnaires aprs d diffrences, (1 B)dYt.
Dun point de vue conomique, un processus TS implique que les chocs alatoires frappant lconomie
nauront quun effet transitoire sur lvolution de la chronique qui aura tendance ensuite revenir sur son
trend de long terme stable. En revanche, les chocs frappant lconomie auront un effet persistant et
durable sur lvolution de la chronique si le processus est DS.
II.
Tests de non stationnarit
Le but et lavantage des tests de non stationnarit consistent en la confirmation ou non de la non
stationnarit46, en la dtermination du type de processus et en la prcision de la bonne mthode de
stationnarisation.
On fait gnralement deux catgorisations de ces tests, synthtises dans le tableau ci-aprs.
Tableau 1. Catgorisation de tests de non stationnarit
Catgorisation quant aux hypothses testes
Tests dH0 de prsence de racine unitaire
- Test Dickey Fuller [DF]
Tests dH0 dabsence de racine unitaire

- Test de Kwiatkowski Phillips Schmidt Shin
- Test Augmented Dickey Fuller [ADF]
[KPSS]
- Test de Phillips Perron [PP]

- Test de Ng Perron
- Etc.
Catgorisation portant sur le type de trend pris en compte
Tests bass sur une tendance linaire
Tests bass sur une tendance non linaire
- Test DF
- Tendance polynomiale : Test de Ouliaris, Park et
- Test ADF
Phillips
- Test PP
- Tendance linaire par morceaux et chocs : test
- Test de Ng Perron
de Perron
- Test KPSS
- Etc.
La critique que nous formulons dans ce papier concerne essentiellement linterprtation des rsultats de
tests ADF et PP.
46
En effet, un examen graphique est parfois assez loquent pour se prononcer sur la non stationnarit dune
chronique.
105

Tests ADF et PP : la composante dterministe suit une tendance linaire
Dickey et Fuller (1976) sont les premiers avoir fourni un ensemble doutils statistiques formels pour
dtecter la non stationnarit dans un processus autorgressif du premier ordre. Dans leurs premiers
dveloppements, ils ont assum que le processus t tait un bruit blanc, or rien, priori, ne conduit la
satisfaction dune telle hypothse. La prise en compte de cette faiblesse a conduit les deux auteurs
proposer, en 1981, un test augment (ADF).
Le test de Phillips - Perron47, en revanche, propose une correction non paramtrique des tests de Dickey
Fuller afin de tenir compte des erreurs htroscdastiques.
La procdure des tests ADF et PP est base sur lestimation, par les MCO, de trois modles
autorgressifs, en intgrant tous les retards significatifs en diffrences premires, suivants :
[1]
Yt = Yt-1 +
+ t
[2]
Yt = c + Yt-1 +
[3]
Yt = c + bt + Yt-1 +
+ t
+ t
Le modle [3] est le modle gnral o la composante dterministe suit un trend linaire (t). Rappelons
que les tests ADF et PP sont des tests dhypothse nulle de prsence de racine unitaire et portent sur le
paramtre :
H0 : = 0
[non stationnarit ou prsence de racine unitaire]
H1 : < 0
[stationnarit ou absence de racine unitaire]
La procdure du test est la suivante.

Tableau 2. Procdure du test de non stationnarit
Modle
Conclusion du test
estimer
1. Estimer le
modle [3]
Tester b
Processus
Il y a un trend linaire
TS
Mthode de
stationnarisation
Ecart la tendance
Il ny a pas un trend linaire
.
2. Estimer le
Significatif
Tester
modle [2]
Tester c
Non RH0
DS avec drive
RH0
stationnaire
Non RH0
DS sans drive
RH0
stationnaire
Filtre aux diffrences
Non significatif
.
3. Estimer le modle [1]
Tester
Filtre aux diffrences
Comme il ressort du tableau, un processus TS signifie simplement labsence dune composante

dterministe suivant un trend linaire, un autre type de trend reste possible.
47
Propos par Phillips (1987), Phillips et Perron (1988).
106
Non stationnarit de nature mixte

Dans lestimation du modle [3], on dit quune chronique est caractrise par une non stationnarit de
nature mixte, si aprs tests de significativit des paramtres b et , on conclut quil y a existence, la
fois, dun trend linaire et dune racine unitaire.
Pour ce dernier cas, on peut aisment appliquer le filtre aux diffrences pour stationnariser la srie. En
effet, Dickey, Bell et Miller (1986) ont montr que si lobjectif poursuivi est la prvision, appliquer le filtre
aux diffrences en prsence dune non stationnarit de nature mixte, est plus rconfortant qualarmant,
car dans ce cas, estiment ces auteurs, la diffrenciation limine le trend linaire.
En conclusion, lorsquon mne les tests ADF et PP, conclure sur un processus DS implique simplement
quon a rcus la prsence dune tendance linaire dans la srie. Il serait donc erron de conclure,
brutalement, labsence dun trend, oubliant que les tests mens sont eux-mmes bass sur lhypothse
dune tendance linaire.
Figures 1. Quelques types de trend
Trend linaire (t)

250
Trend quadratique (t2)

45000
40000
200
35000
30000
150
25000
20000
100
15000
10000
50
5000
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
0
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
Trend exponentiel (et)

8E+86
Trend logarithmique [Log(t)]

6
7E+86
6E+86
4
5E+86
4E+86
3E+86
2E+86
1
1E+86
0
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
1
12
23
34
45
56
67
78
89
100
111
122
133
144
155
166
177
188
199
107

III.
Etude des cas de lindice des prix [rubrique alimentation] en RDC48
La srie sera abrge IP dans la suite de ce papier.

Figure 2. Analyse du plot de la srie IP
900
800
700
600
500
400
300
200
100
0
00
01
02
03
04
05
06
07
08
09
IP
La srie IP prsente une tendance haussire. Elle semble non stationnaire affecte dune tendance. Mais
de quel type ? Visiblement, dun trend non linaire.
Figure 3. Analyse du corrlogramme de la srie IP
Ce corrlogramme fait tat dune dcroissance lente de toutes les autocorrlations de IP. On constate
aussi que la premire autocorrlation partielle est significativement diffrente de zro. Ceci est indicatif
dune srie non stationnaire.
48
Les donnes sont reprises en annexe 1 et proviennent de la section conomique de lAmbassade Amricaine. Elles
sont mensuelles et couvrent la priode allant de 2000 2009.
108

Tests ADF et PP de la srie IP en niveau
Les rsultats de ces tests sont repris intgralement en annexe 2 de ce papier. Le nombre de retard,
retenu pour les deux tests, a t trouv en appliquant la stratgie destimation squentielle fonde sur
la significativit des coefficients des retards en diffrences premires, propose par Perron (1993).
Alors que lanalyse du plot a indiqu que la srie comportait un trend, les tests ADF et PP, synthtiss ciaprs, disent quil y a absence de trend. Cest donc ici quil faut viter toute conclusion htive. Il ny a
pas absence dun trend dans la srie IP, il y a plutt absence dun trend linaire.
Tableau 3. Test ADF et PP de la srie IP niveau
Retard
Drive
Trend
linaire
Non
Non
IP
P-value
Statistique
ADF
En niveau
Statistique
PP
6.706690
8.150683
1.0000
1.0000
Valeur critique
[ 5%]
Conclusion
Non-stationnaire
Type stochastique
-1.943540
La srie tant caractrise par une non stationnarit de nature stochastique (DS), il convient
dappliquer le filtre aux diffrences pour la rendre stationnaire.
Tableau 4. Tests ADF et PP de la srie IP en diffrences premires
IP
P-value
Statistique ADF
7.150804
0.0000
En diffrences premires
Statistique PP
Valeur critique [ 5%]
7.167671
-1.943563
0.0000
Conclusion
stationnaire
Figure 4. Plot de la srie stationnaire, vraisemblablement en moyenne
80
60
40
20
0
-20
-40
-60
00
01
02
03
04
05
DIP
06
07
08
09

!!!!!!!!!!!!!!!!!!!!!!!!!!! 1 A Voir Économetrie

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

!!!!!!!!!!!!!!!!!!!!!!!!!!! 1 A Voir Économetrie

Uploaded by

Copyright:

Available Formats

E CONOMETRIE 1

Ass. Cdrick Tombola M.

Rappels et recueil dexercices [rsolus]

Sous la supervision du Professeur BOSONGA BOFEKI

Cdrick Tombola M. /Assistant

Copyright cdktombola-Larq - mars 2012

Ass. Cdrick Tombola M.

Ass. Cdrick Tombola M.

Ass. Cdrick Tombola M.

Ass. Cdrick Tombola M.

Ass. Cdrick Tombola M.

La construction d'difices mathmatiques purement logiques et dconnects du rel conomique.

A ce sujet, R. Frisch crivit ainsi dans le premier numro de la revue Econometrica :

Ass. Cdrick Tombola M.

- En 1950, Lawrence Klein ouvre la vogue de la modlisation macroconomtrique. Il estime pour

Ass. Cdrick Tombola M.

Laurat, avec Thomas Sargent, du prix Nobel dEconomie 2011.

Ass. Cdrick Tombola M.

I.2. Quelques rappels statistiques

dfinie de faon objective et donc indpendante de lobservateur,

Ass. Cdrick Tombola M.

Indicateurs de position [ou de tendance centrale]

Ass. Cdrick Tombola M.

Indicateurs de forme [de la distribution]

Asymtrie droite [distribution

Test dhypothse [un petit commentaire]

Ass. Cdrick Tombola M.

Erreur de 1re espce

I.3. Quelques tests statistiques de normalit

Histogramme des frquences

Test de Jarque Bera

Test de Shapiro Wilk

Ass. Cdrick Tombola M.

Ass. Cdrick Tombola M.

o n est la taille de lchantillon, S le Skewness et K la Kurtosis.

Critre de dcision : Si JB la valeur du 2(2) de la table au seuil , alors RH0 de normalit.

Lire par exemple Royston (1982), Palm (2002).

Ass. Cdrick Tombola M.

ai : sont des valeurs lues dans la table des coefficients

: est la partie entire du rapport

Les hypothses du test sont :

I.3. Trois piliers de lconomtrie

De par sa nature lEconomtrie est

Ce sont les mthodes statistiques qui

Trois types de donnes :

Selon Ado et Davidson [1998],

Chroniques [times series en

Lire TSASA Jean Paul (2012) pour les illustrations.

Quantifier et tester les thories

Ass. Cdrick Tombola M.

Donnes en Coupe longitudinale

Deux formats des donnes :

Quantitatives [ex : PIB, Taux

LEconomtrie na donc pas pour

Ass. Cdrick Tombola M.

I.4. Modle conomique versus modle conomtrique

[avec 1 : propension marginale { consommer, 0 < 1 < 1]

[modle spcifi par lconomtre]

Cit par Kintambu Mafuku (2004).

Ass. Cdrick Tombola M.

Figures B.1. Relation non linaire monotone

Figures B.2. Relation non linaire

Figures B. 3. Absence de liaison