You are on page 1of 109

E CONOMETRIE 1

Ass. Cdrick Tombola M.

Rappels et recueil dexercices [rsolus]

Sous la supervision du Professeur BOSONGA BOFEKI


Licence 1 Economie

Cdrick Tombola M. /Assistant

UPC

Copyright cdktombola-Larq - mars 2012

Ass. Cdrick Tombola M.

A travers cette contre chaotique, des hommes audacieux et tenaces ont lanc le premier chemin de fer de
lAfrique centrale.
Henry Merton Stanley
N'essayez pas de devenir un homme qui a du succs. Essayez de devenir un homme qui a de la valeur.
Albert Einstein

Ass. Cdrick Tombola M.

PLAN SOMMAIRE
AVANT PROPOS
INTRODUCTION
THEORIE DE LA CORRELATION
MODELE DE REGRESSION LINEAIRE SIMPLE
MODELE DE REGRESSION LINEAIRE MULTIPLE
MODELES DE REGRESSION NON LINEAIRES
VIOLATION DES HYPOTHESES DE BASE
ANNEXES

Ass. Cdrick Tombola M.

AVANT-PROPOS
Je ne peux nier, quand jai commenc la rdaction de ce recueil, lambition de confectionner un vade-mecum
dintroduction lEconomtrie lintention des tudiants de premire licence FAS. Mais le nombre de projets
sur la file dattente et les nombreux dfis entre lesquels il me faut partager mon temps dune part, et le besoin
rel et urgent chez les tudiants de disposer dun recueil qui accompagne le cours magistral assur par le
professeur dautre part, mont oblig ne produire quune bauche.
Le projet de proposer ce recueil est n de la dception et de linsatisfaction que jprouvais, encore tudiant,
lors des sances TP dEconomtrie 1. Alors quailleurs ils prennent de la vitesse, nous, me semblait-il, on
tombait, paradoxalement, dans la suffisance.
Ce recueil a donc t rdig de faon permettre aux tudiants de porter un autre regard sur les notions quils
apprennent pendant le cours thorique et de voir plus loin que moi. Le choix des applications a galement t
fait dans cette optique. On remarquera que, par souci pdagogique et dexcellence, je me suis plus attard sur
les aspects et les dmonstrations les moins populaires, bref, sur les non-dits.
Les tudiants passionns et qui veulent aller loin en Economtrie, trouveront aussi, en annexe, une initiation au
logiciel conomtrique EVIEWS.
Enfin, en le mettant la disposition du public, je formule le vu que ce recueil suscite, parmi mes tudiants et
mes collgues de la FAS, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi viter que
nos efforts pour lavancement de cette facult ne sessoufflent et natteignent, prmaturment, un tat
stationnaire , ce qui serait dommage .

Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance quil a eue en moi vrai dire, sans vraiment
me connatre et pour mavoir orient dans la rdaction de ce recueil.
Mes sincres remerciements vont mon an et mon ami lassistant Jean-Paul Tsasa V. Kimbambu, pour nos
nombreuses discussions, parfois laisses en queue de poisson, et pour lidal quil ma transmis.
Je remercie aussi mes tudiants de premire licence FAS, de la promotion 2011-2012, pour avoir beaucoup
exig et attendu de moi ; ils mont contraint plus de srieux dans le travail, et je leur en suis reconnaissant.
Bien entendu, ce support nengage que son auteur. Toute remarque pertinente pouvant en amliorer le
contenu sera la bienvenue.

Ddicace
Je ddie ce recueil lavenir du LAREQ et lmergence dune nouvelle classe denseignants lUPC.

Cdrick Tombola M.
cedrictombola@lareq.com

Ass. Cdrick Tombola M.

.I.

INTRODUCTION
I.1. Quelques points de lhistoire
. Avant 1930 : Le Moyen-ge conomtrique
Les premiers dveloppements de lEconomtrie1 peuvent remonter, selon Grard Grellet, au 17me sicle,
lpoque de lArithmtique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs
comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modlisation partir des
donnes empiriques.
Selon dautres auteurs, on doit la gense de lEconomtrie aux travaux de tentative dunification de
lEconomie et la Statistique dAuguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en
Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentrent dlaborer des lois
conomiques { linstar des lois de la physique newtonienne.
Mais il convient simplement de retenir que nombre de mthodes et techniques auxquelles recourt
lEconomtrie, ont t dveloppes bien avant son institutionnalisation comme discipline des sciences
conomiques. A titre dexemple :
- En 1805, dans son ouvrage intitul Nouvelles mthodes pour la dtermination des orbites des comtes ,
puis en 1806 dans la deuxime dition du mme ouvrage, le mathmaticien franais Adrien-Marie Legendre
propose, par une mthode algbrique, le premier dveloppement rigoureux de la mthode des moindres
carrs ordinaires.
- En 1809, Carl Friedrich Gauss, dans son trait Theoria motus corporum coelestium , propose, par une
approche probabiliste, un autre dveloppement rigoureux de la mthode des moindres carrs ordinaires
dont il se rclame la paternit. Dans une lettre adresse Pierre-Simon de Laplace2, il explique quil avait
fait usage de cette mthode dj en 1795, et de manire un peu plus frquente, dans ces calculs
astronomiques sur les nouvelles plantes, depuis 1802.
Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov dmontrent que lestimateur des moindres carrs
ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. Cest--dire quil est le meilleur
estimateur linaire non biais, variance minimale.
- En 1886, dans son tude sur la transmission des caractres hrditaires, Francis Galton, de qui le terme
rgression tire son origine, fournit une premire rgression linaire. Plus tard, son disciple Karl Pearson, en
1896, dans son ouvrage La Grammaire de la Science , dveloppe la notion de corrlation linaire et
propose un estimateur pour cette grandeur.
La corrlation a t introduite en Economie en 1902, avec louvrage de Arthur Lyon Bowley Elements of
Statistic .
- En 1909, Georges Udny Yule invente les premires applications conomiques de la mthode de la
corrlation et introduit la mme occasion la notion de corrlation partielle. Et en 1926, il dnonce les

On attribue souvent tort au norvgien R. Frisch, la cration du mot conomtrie qui revient plutt Pavel Compria.
Il inclut lui-mme un expos de la mthode des moindres carrs ordinaires dans son trait de 1820 : Thorie
analytique des probabilits . En 1808, le mathmaticien amricain Robert Adrain a aussi publi une formulation de la
mthode des moindres carrs.
2

Ass. Cdrick Tombola M.

spurrious correlations , ce quil convient de traduire par corrlations fallacieuses. Puis montre que la
corrlation de deux sries chronologiques peut tre totalement artificielle.
. Depuis 1930 : La naissance de lEconomtrie moderne
Linstitutionnalisation de lEconomtrie en tant que discipline des sciences conomiques sest ralise en
1930 exactement le 29 dcembre 1930 { loccasion de la cration { Cleveland, aux Etats-Unis, par 16
conomistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cits, de lEconometric Society [la Socit
dEconomtrie] avec comme devise : pour lavancement de la thorie conomique dans ses relations avec la
statistique et les mathmatiques.
Depuis la cration de cette socit, et de la Cowles commission spcialise dans les mthodes
destimation des modles { quations simultanes , fonde le 9 septembre 1932, deux ans aprs
lEconometric Society, par Alfred Cowles, lEconomtrie a connu un grand essor.
Cest ainsi quen 1933, R. Frisch cre la revue Econometrica pour la promotion des tudes qui ont pour but
une unification des approches quantitatives thoriques et empiriques des problmes conomiques.
On note aussi que ds le dpart, pour les promoteurs de lEconometric Society, il tait clair que deux
dviations devraient tre vites :

La construction d'difices mathmatiques purement logiques et dconnects du rel conomique.


La mise en uvre de pures investigations statistiques qui, en dpit de leur caractre pouss et de
leur apparence raliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une
pense conomique profonde et rigoureuse.

A ce sujet, R. Frisch crivit ainsi dans le premier numro de la revue Econometrica :


"L'exprience a montr que chacun des trois points de vue suivants, celui de la statistique, celui de la thorie
conomique et celui des mathmatiques est une condition ncessaire, mais par elle mme non suffisante, d'une
comprhension effective des relations quantitatives de la vie conomique moderne : c'est leur unification qui
est efficace. C'est cette unification qui constitue l'conomtrie .
Il faut noter galement que le krach financier des annes 30, la domination du keynsianisme jusqu{ la fin
des annes 60, le dveloppement de linfrence statistique la fin du 19me sicle et le consensus entre les
conomistes autour du cadre IS LM avant 1970, sont aussi parmi les facteurs explicatifs de lessor de
lEconomtrie depuis 1930, surtout au sein de la Cowles commission. La rvolution Keynsienne [1936], avec
la logique de circuit, a dvelopp un autre type de raisonnement macroconomique en termes dagrgats
objectivement mesurables par la comptabilit nationale et de comportements mesurs par les propensions.
Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Economtrie porta sur les conditions
destimation des modles macroconomtriques { quations simultanes.
- En 1935, Jan Tinbergen estime un premier modle conomtrique quations simultanes, du type
keynsien, comportant 31 quations de comportement et 17 identits. Il devient ainsi, dun point de vue
empirique, le pre des modles conomtriques.
- En 1944, Trygve Haavelmo pose les conditions gnrales de solvabilit dun systme dquations linaires.
3

R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart,
Snyder , Wedervang, Wiener, Wilson.
4
Premier laurat du prix de la Banque de Sude communment appel prix Nobel en mmoire de son fondateur
Alfred Nobel dconomie en 1969 avec Jan Tinbergen.

Ass. Cdrick Tombola M.

- En 1950, Lawrence Klein ouvre la vogue de la modlisation macroconomtrique. Il estime pour


lconomie amricaine (1921-1941), un modle macroconomtrique de type keynsien 16 quations. Ce
modle est amlior plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modle utilis
des fins prvisionnelles. Klein introduit galement la notion de multicolinarit. Il est parfois considr
comme le pre des modles macroconomtriques.
Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson
laborent leur clbre test dautocorrlation des erreurs. En 1954, Henri Theil et Robert Lon Basmann
introduisent la mthode des doubles moindres carrs. Toujours dans les annes 50, il y eut un
dveloppement des modles retards distribus par Koyck, Almon, Cagan et Friedman.
Lon peut galement citer les travaux suivants dvelopps entre 1950 et 1970 : la mthode des moindres
carrs gnraliss et lintroduction du calcul matriciel en Economtrie par Aitken; les tests et corrections de
lhtroscedasticit [Glejser, White, ].
Lirruption de linformatique au dbut des annes 60 va donner un nouveau coup de pousse { lexpansion
de lEconomtrie.
En 1961, James Tobin dveloppe les modles microconomtriques. Il est, ce titre, considr comme le
pre des modles microconomiques. La mme anne, Yair Mundlak conoit les mthodes bases sur les
donnes de panel.
. Les annes 1970 : La rvolution des anticipations rationnelles
Les annes 1970 ont t marques par cinq faits majeurs qui ont conduit { lclatement du paradigme de la
Cowles commission. Cest--dire une remise en cause radicale des modles macroconomiques structurels
dvelopps au sein de cette institution. Ces faits sont :

Le premier choc ptrolier [en 1973] ou le quadruplement du prix des produits ptroliers, ce qui
marque, historiquement, la fin des Trente Glorieuses5 ;
La stagflation et la remise en cause de la courbe de Phillips;
La chute du keynsianisme et le rejet des modles conomtriques traditionnels devenus caducs
bass sur le paradigme IS LM ;
Le deuxime choc ptrolier [en 1979] ou le doublement du prix des produits ptroliers ;
La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroconomie
Microfonde, le retour aux modles walrassiens et le dveloppement des modles dquilibre
gnral calculable [MEGC].

Les critiques les plus acerbes et svres sont venues essentiellement, ds 1972, de Robert Emerson Lucas 6.
Cest ce que la littrature qualifie de la fameuse critique de Lucas. Il discrdite les modles
macroconomtriques traditionnels, en fustigeant leur incapacit expliquer et prvoir les
bouleversements provoqus par le 1r et le 2me chocs ptroliers. Il leur reproche de manquer de fondations
microconomiques suffisamment solides. De plus, Lucas interdit les prvisions myopes et adaptatives, il
pose la problmatique des anticipations rationnelles, ce qui veut dire que les agents conomiques sont
intelligents et capables de former leurs anticipations sur une base endogne et ainsi anticiper toute mesure
de politique conomique. De fait, toute mesure de politique conomique, ajoute-t-il, devient inefficace du
fait de la prise en compte des anticipations rationnelles, les agents pouvant lanticiper et la contrer.

Trente Glorieuses : Titre dun livre de Jean Fourasti, publi en 1977, qui dsigne la priode de forte croissance
conomique, de plein-emploi et daugmentation des salaires rels et des revenus, quont connu les pays dvelopps, de
laprs-guerre au premier choc ptrolier.
6
Laurat du prix Nobel dEconomie 1995.

Ass. Cdrick Tombola M.

Cette critique a pouss les conomtres penser plus profondment sur les fondements de leur discipline
et a donn lieu des critiques plus svres. LEconomtrie va connaitre un changement radical, surtout en
termes de relations quelle entretient avec la thorie conomique.
- En 1970, George Box et Gwilym Jenkins dveloppent le modle ARMA [AutoRegressive with Moving
Average] qui est un mlange des modles AR et MA dvelopps en 1927 respectivement par Georges Yule
et Eugen Slustsky , comme une rponse aux dfaillances constates dans la capacit de prvision des
modles labors la suite des travaux de Tinbergen.
- Dj en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les spurrious
regressions ou rgression fallacieuse, pour le cas dajustement par les MCO dun modle avec sries non
stationnaires.
- En 1980, dans un article qui a connu un succs destime lors de sa parution, intitul Macroeconomics and
Reality, Christopher Sims7, en gnralisant le modle ARMA en modle VAR [Vector Auto Regressive] afin
de tenir compte, au mme moment, de plusieurs variables, reproche aux conomtres davoir mis la
charrue devant les bufs en remettant en cause la distinction priori entre variables endognes et
variables exognes, et considre toute variable comme potentiellement endogne 8. Cest ce que la
littrature appellera lEconomtrie sans thorie. La critique de Sims va permettre { lEconomtrie de devenir
beaucoup plus autonome et de smanciper de la tutelle de la thorie conomique.
- En 1987, Clive Granger et Robert Engle dveloppent la mthode de cointgration dans le traitement des
sries non stationnaires. Une anne aprs, en 1988, Johansen propose une version amliore du test de
cointgration Engle Granger.
- En 1982, Robert Engle dveloppe le modle ARCH afin de prendre en compte la non linarit et la forte
volatilit des variables financires, ce qui ntait pas possible avec les modles ARMA et VAR.
Plusieurs mthodes encore ont t dveloppes depuis la fameuse critique de Lucas, et plus loin encore
dans lhistoire, depuis la cration de la socit dEconomtrie. LEconomtrie a donc connu, ces deux
dernires dcennies, un essor vertigineux.
. Applications et place de lconomtrie
La dmarche en sciences conomiques est hypothtico-dductive. Cest--dire que les thories conomiques
ne sont valables que dans le domaine dfini par leurs hypothses. Sil est vrai que lusage des
mathmatiques est la garantie de la rigueur et de la cohrence interne des thories conomiques
modernes, la question reste cependant pose quant la pertinence de leurs hypothses. Ceci motive le
recours { des outils plus puissants notamment lEconomtrie, qui est un outil de validation des thories.
De fait donc, lconomiste ne doit-il pas tre aussi conomtre ? John Maynard Keynes, dans les annes
1930, crivait : Lconomiste doit tre mathmaticien, historien, philosophe, homme dEtat, . Sil faut
transfrer la pense de Keynes aujourdhui, naurait-il pas lui-mme ajout lconomiste doit tre
conomtre ?
Il est clair quil nest plus possible { ce jour, de faire un bras de fer avec lirruption et la domination de
lEconomtrie dans le champ de la science conomique, au risque, purement et simplement, de se
soustraire de la catgorie dconomistes modernes.

Laurat, avec Thomas Sargent, du prix Nobel dEconomie 2011.


Cette dmarche de Sims sinspire de lun des grands principes de la thorie de lquilibre gnral, selon lequel toutes
les variables conomiques sont dtermines simultanment.
8

Ass. Cdrick Tombola M.

Pour renchrir, dans une tude publie en 2006, les conomistes Kim, Morse et Zingales ont montr que le
nombre darticles empiriques cits en conomie est pass de 11 % 60 % entre 1970 et 2000. Ce qui confirme
limportance de plus en plus croissante de lEconomtrie dans lunivers des conomistes.
Par ailleurs, lEconomtrie s'applique tous les domaines auxquels s'applique la science conomique.
L'ouvrage de Levitt et Dubner, Freakonomics, tmoigne de la diversit des applications possibles de
l'conomtrie. Voici quelques exemples significatifs:

En conomie de guerre, Collier Hoeffler [1999] ont mis en vidence, par le recours un modle
conomtrique, les dterminants politiques permettant de mettre fin aux guerres civiles et de
relancer lconomie en priode post-conflit.
En conomie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilis un modle de rgression
linaire pour tester empiriquement la pertinence du modle de Solow. Ils montrent que le modle
de Solow augment du capital humain est cohrent avec les donnes observes. Barro et Sala-iMartin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux mthodes conomtriques afin
de rendre compte de leffet des dpenses publiques sur la croissance.
En conomie de la criminalit, Levitt, en 1997, a utilis un modle linaire variables instrumentales
pour estimer l'effet du nombre de policiers sur la criminalit.
En 2002, Acemoglu, Johnson et Robinson ont utilis une rgression linaire pour estimer l'effet des
institutions sur le dveloppement actuel des pays.

I.2. Quelques rappels statistiques


La force de la statistique est quon nest pas oblig dtudier toute la population. Il est possible de tirer des
conclusions sur une population, { partir dun chantillon suffisamment reprsentatif.
Et comme les donnes en elles-mmes ne sont pas intelligibles, le statisticien recherche la synthse. Sa
premire dmarche pour synthtiser les donnes consiste { calculer les paramtres de description, cest la
statistique descriptive. Plus tard, la dmarche du statisticien consistera contraster des donnes
empiriques aux lois thoriques, dont on connait parfaitement les comportements, en vue de faire de la
prdiction, cest la statistique infrentielle [ou mathmatique].
Encadr 1. Conditions de Yule
Le statisticien britannique Georges U. Yule a nonc un certain nombre de proprits souhaites pour les
indicateurs des sries statistiques ; ceux-ci doivent tre dune part, des rsums maniables et dautre
part, les plus exhaustifs possibles relativement { linformation contenue dans les donnes.
Dans son schma, une caractristique statistique doit tre une valeur-type :
1.
2.
3.
4.
5.
6.

dfinie de faon objective et donc indpendante de lobservateur,


dpendante de toutes les observations,
de signification concrte pour tre comprise par les non-spcialistes,
simple calculer,
peu sensible aux fluctuations dchantillonnages,
se prtant aisment aux oprateurs mathmatiques classiques.

En ralit, on ne dispose pas de caractristiques rpondant simultanment ces six conditions. Le choix
dun indicateur sera lobjet dun compromis guid par la spcificit de ltude en cours.
Source : Adapt de B. Goldfard et C. Pardoux, 1995.

Ass. Cdrick Tombola M.

Indicateurs de position [ou de tendance centrale]


Soit une variable X observe sur un chantillon de n individus. xt est la valeur prise par X pour lobservation t.

1.

La moyenne arithmtique :

La moyenne arithmtique9 est la mesure de rpartition quitable. Elle conserve la somme totale et satisfait toutes les
conditions de Yule, sauf la 5me, car elle est une mesure sensible aux valeurs extrmes.
Lorsque les valeurs sont alatoires, la moyenne arithmtique est appele Esprance mathmatique .
2. La mdiane [Me] : est la mesure qui divise la srie en deux groupes de tailles gales. Aprs avoir class les
donnes en ordre croissant, elle correspond pour n impair [pair], au point milieu [ la moyenne arithmtique de deux
points milieux].
Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement la moyenne arithmtique, la mdiane rsiste aux
valeurs extrmes.
3. Le mode [Mo] : est la valeur dominante de la srie, celle qui a la frquence la plus leve.
Pour une distribution discrte, le mode satisfait aux conditions 1, 3 et 4 de Yule.
Le premier Quartile Q1
[ou quantile dordre 1,
x25%]

4.

Les quartiles

Le deuxime Quartile
[ou quantile dordre
x50%]
Le troisime Quartile
[ou quantile dordre
x75%]

Q2
2,
Q3
3,

Valeur telle quau moins 25% des valeurs prises par X lui sont
infrieures. Aprs avoir class les donnes et spar la
population en deux, le Q1 est la mdiane de la premire souspopulation.
Le Q2 est la mdiane.
Valeur telle quau moins 75% des valeurs prises par x lui sont
infrieures. Le Q3 est la mdiane de la deuxime souspopulation.

Note : Les quartiles non plus ne subissent pas linfluence des valeurs extrmes. Comme la mdiane, les quartiles
satisfont aux conditions 1, 3, 4 et 5 de Yule.

Indicateurs de dispersion
5.

La variance :

La variance empirique :

La variance est la moyenne arithmtique des carrs des carts dune variable { sa moyenne arithmtique. Elle donne
une ide de la dispersion [ou dviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec
la variance on change dchelle, elle sexprime dans le carr de lunit en laquelle sexpriment les observations. Pour
revenir { lchelle du dpart, on prend sa racine carre qui est lcart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.
Note : La variance empirique est lestimateur non biais de la variance. La variance est un estimateur biais car utilisant
un autre estimateur dans son calcul.

6. Lcart-type :
Lcart-type empirique :
Lcart-type est la racine carre de la variance. Il est la mesure de dispersion la plus utilise. Elle satisfait aux conditions
1, 2 et 6 de Yule, et est plus sensible aux fluctuations dchantillonnage et aux valeurs extrmes que la moyenne
arithmtique, en raison des lvations au carr.
7. Ltendue : max xt min xt
Ltendue est la diffrence entre la plus grande et la plus petite des valeurs observes. Elle est trs influence par les
valeurs extrmes et ne satisfait pas aux conditions 2 et 5 de Yule.
8. LEtendue [cart] interquartile : EIQ = Q3 Q1
Lcart interquartile nest pas sensible aux valeurs extrmes.

Dans le langage courant, on dit simplement moyenne. Or, selon la manire dont le total des individus est calcul, il
existe diffrentes moyennes [moyenne gomtrique, moyenne harmonique, moyenne quadratique].

Ass. Cdrick Tombola M.

10

Indicateurs de forme [de la distribution]


Parlons tout dabord de la notion des moments.
Le moment centr sur a dordre r
a r
Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre dexemple,
si a=0 et r=1, on retrouve la moyenne arithmtique, qui nest rien dautre que le moment non centr dordre 1. La
variance serait donc le moment centr sur la moyenne arithmtique dordre 2, etc.
Note : dans la suite, on dira moment centr pour parler de moment centr sur la moyenne arithmtique. On peut
aisment vrifier que le moment centr sur la moyenne arithmtique dordre 1 (1) est nul.
9. Lasymtrie [Skewness en anglais]: est base sur le moment centr dordre 3.
Pour une distribution symtrique, telle que la loi normale, la moyenne arithmtique est gale la mdiane gale au
mode. De plus, les moments centrs dordre impair sont nuls pour une distribution symtrique.
Le coefficient dasymtrie de Fisher : 1 =

1 est nul pour une distribution symtrique, telle que la loi normale.
Asymtrie gauche [distribution
tale droite]

Distribution symtrique

Asymtrie droite [distribution


tale gauche]

1<0

=Me=Mo
1=0

1>0

10. Laplatissement [Kurtosis en grec, qui signifie bosse] : est bas sur le moment centr dordre 4 et permet de
mesurer limportance des queues dune distribution ou son aplatissement.
Le coefficient daplatissement de Fisher : 2 =

2 est nul pour une distribution mesokurtique. Cest le cas dune distribution gaussienne [normale].
Distribution mesokurtique

Distribution platokurtique

2<0
Cas de la distribution de Student

2=0
Cas de la distribution normale

Distribution leptokurtique

2>0

La loi normale
La loi normale est une des principales distributions de probabilit. On dit quelle est parfaite, car sa densit de
probabilit dessine une courbe en cloche ou courbe de Gauss, qui est la fois symtrique et mesokurtique.
Elle a t introduite, en 1733, par le mathmaticien Abraham de Moivre, et mise en vidente plus tard, au 19 me sicle,
par Carl F. Gauss. Elle est galement connue sous le nom de la loi de Gauss. Une variable distribue selon cette loi est
dite normale ou gaussienne.

Test dhypothse [un petit commentaire]

Ass. Cdrick Tombola M.

11

Un test d'hypothse est une dmarche consistant valuer une hypothse statistique en fonction d'un chantillon. Il
sagit donc de confronter une hypothse dite nulle [HO] contre une hypothse de recherche ou alternative [H1].
Une notion essentielle qui concerne les tests est la probabilit que l'on a de se tromper. Il existe deux faons de se
tromper lors dun test statistique :

La premire faon de se tromper est de commettre lerreur [ou risque] de premire espce, not , qui est
la probabilit de rejeter tort HO alors quelle est vraie. On dit, dans ce cas, que est la probabilit davoir un
faux positif.

La deuxime faon de se tromper est de commettre lerreur [ou risque] de deuxime espce, not , qui est
la probabilit de ne pas rejeter HO alors quelle est fausse. On dit, dans ce cas, que est la probabilit davoir
un faux ngatif.
HO est vraie
Ne pas rejeter HO
Rejeter HO

HO est fausse
Erreur de 2me espce

Erreur de 1re espce

Lidal serait que ces deux erreurs soient nulles, mais puisque lon ne dispose que dun nombre fini dobservations, il
faut faire un choix.
Le risque tant difficile { valuer, voire impossible, seul le risque est utilis comme critre de dcision.
Note : On accepte une hypothse en refusant sa fausset et non en acceptant sa vrit.

I.3. Quelques tests statistiques de normalit


Dans son article de 194410, qui a marqu une tape dcisive dans le dveloppement de lEconomtrie, crit
dans lobjectif de briser la rticence de ses contemporains vis--vis de lapplication des mthodes
statistiques aux donnes conomiques, Haavelmo a avanc deux thses. Dabord, il a dfendu l'ide que
l'emploi des mesures statistiques telles que les moyennes, les carts-type, les coefficients de corrlation,
des fins d'infrence n'a rellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu
importe la vraie nature des faits conomiques, il suffisait, pour les analyser, de faire comme si les donnes
conomiques taient gnres par une loi de probabilit qu'il fallait identifier de faon adquate.
Avant donc toute tude formelle, le travail de lconomtre est de tester ladquation ou la conformit
dune distribution observe avec une distribution thorique associe une loi de probabilit. Parmi ces
tests dadquation, la conformit { la loi normale est le test le plus utilis, car elle sous-tend la plupart de
tests paramtriques utiliss en Economtrie. A titre de rappel, pour une distribution gaussienne, 2
contiennent 95% des observations.
Les nombreux tests11 de normalit dune distribution que fournit la littrature peuvent se regrouper en
deux familles : Les tests informels et les tests formels.
Si n est le nombre dobservations

Tests informels

Histogramme des frquences


tuyau dorgue]
Box plot [ou Bote--pattes]
QQ plot [ou droite de Henry]

Tests formels
[ou

Test de Jarque Bera

Test de Shapiro Wilk


Test K2 dAgostino Pearson

En termes defficacit
Si n > 88
Si n 50
Si n 20

Les tests informels donnent une prsomption tandis que les tests formels apportent une approche plus rigoureuse et
objective.

Ci-aprs sont exposs uniquement les tests les plus frquemment utiliss et les plus oprationnels.

10
11

Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118.
Il existe une batterie de test de normalit, ici nous ne reprenons que quelques uns.

12

Ass. Cdrick Tombola M.


. Le Box plot
Synonyme : Bote pattes, Bote moustache, Diagramme en boites, Box and Whiskers Plot

Le Box plot, invent par Tukey en 1977, est un outil graphique trs pratique qui permet de caractriser
une distribution en fournissant un rsum riche dinformations sur sa dispersion et son asymtrie.
Du fait quil renseigne sur lasymtrie dune distribution, le Box plot est galement utilise comme test de
normalit.
Les tapes suivre dans sa construction peuvent tre rsumes comme suit :
a. Porter sur une chelle les valeurs calcules suivantes : Q1, Q2, Q3, Min xi et Max xi
b. Construire la bote : - La longueur de la bote est donne par lEIQ
- La largeur de la bote est fixe priori.
c. Calculer la longueur des moustaches ou des pattes [infrieure et suprieure] :
Pour savoir jusquo vont les moustaches, on calcule deux valeurs adjacentes :
Frontire Basse [FB]= Q1 1.5EIQ
Frontire Haute [FH]= Q3 + 1.5EIQ
Selon Tukey, la valeur 1.5 serait plus pragmatique.
Pour la longueur de la moustache infrieure : prendre, parmi les valeurs xi prises par X, la valeur minimale
xb directement suprieure FB, soit xb = min {xi| xi FB}.
Pour la longueur de la moustache suprieure : prendre, parmi les valeurs xi prises par X, la valeur maximale
xh directement infrieure FH, soit xh = max {xi| xi FH}.
A retenir :

- Pour une distribution symtrique, Q2 divise la bote exactement en deux parties gales.
- Pour une distribution symtrique, Q2= .

Illustration
Considrons lexemple suivant :
X

6
7
8
Q1 = 8.5
Q2 = 12
FB = 8.5 (1.5)7 = 2

9
10
11
12
Q3 = 15.5
EIQ = 7
FH = 15.5 + (1.5)7 = 26

13
14
15
16
17
18
Min xi = 6
et
Max xi= 18
= 12
Etendue = 10 Xb = 6 Xh =18

Etendue

*
FB

Min xi
Xb

Q1

Q2

EIQ
La croix lintrieur de la bote reprsente la moyenne.

Q3

Max xi
Xh

FH

Ass. Cdrick Tombola M.

13

Il ressort, puisque Q2 spare la bote en deux parties gales et que les queues ont une longueur identique,
que la distribution est symtrique, ce qui est une prsomption de normalit. De plus la mdiane (Q2) est
gale la moyenne.
Note : la Botepattes permet galement de dtecter les valeurs aberrantes ou singulires [dviants ou
atypiques ou encore outliers]. Aprs avoir construit le Box plot, est valeur aberrante celle situe au-del des
pattes.
. Le test de Jarque-Bera [JB]
Le test de Jarque-Bera, propos en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalit les
plus populaires dans les milieux acadmiques. Mais la remarque { faire, dores et dj{, est quil est
particulirement appropri pour grand chantillon, soit n > 88.
Le test JB est fond sur les coefficients dasymtrie et daplatissement. Sa richesse consiste { ce quil
permet de conclure { la fois sur lasymtrie et limportance des queues [aplatissement] dune distribution.
Les hypothses du test sont :
H0 : Normalit
H1 : Non normalit
Sous lhypothse de normalit de la srie, la statistique du test JB suit asymptotiquement une distribution
du Khi deux 2 { degrs de libert avec le risque davoir un faux positif [ou seuil de signification] = 5%.
La statistique du test est calcule comme suit :
JB = n

o n est la taille de lchantillon, S le Skewness et K la Kurtosis.


Valeur lue dans la table de la loi du Khi carr deux degrs de libert

Seuil

1%

5%

9.210

5.991

Valeur

Critre de dcision : Si JB la valeur du 2(2) de la table au seuil , alors RH0 de normalit.


. Le test de Shapiro-Wilk
Le test de Shapiro Wilk, propos en 1965 par Samuel Shapiro et Martin Wilk, est considr dans la
littrature comme lun des tests de conformit { la loi normale les plus fiables et les plus efficaces,
particulirement pour petits chantillons [n 50] 12. Ce test est bas sur la statistique W, calcule comme
suit :

W=

12

Lire par exemple Royston (1982), Palm (2002).

Ass. Cdrick Tombola M.

14

o
n : est la taille de lchantillon

ai : sont des valeurs lues dans la table des coefficients


de Shapiro et Wilk, connaissant n et lindice i.

: est la partie entire du rapport


x(i) : correspond la srie des donnes tries en ordre
croissant

Les hypothses du test sont :


H0 : la variable X est gaussienne
H1 : la variable X est non gaussienne
La statistique W est confronte une valeur lue dans la table des valeurs limites de W propose par
Shapiro et Wilk, avec n le nombre dobservations et au seuil [5% en gnral].
Critre de dcision : Si W < WTable(n) au seuil , alors RH0 [la variable est non gaussienne]13.
Note : Les deux tables utilises pour mener ce test sont reprises en annexe.

I.3. Trois piliers de lconomtrie


Lconomtrie se fonde sur trois piliers { savoir :
. La thorie conomique ;
. Les donnes ;
. Les mthodes.
Les trois piliers de lconomtrie

Les donnes

La thorie conomique

De par sa nature lEconomtrie est


intimement lie la thorie
conomique qui lui fourni les
modles et thories quelle teste.

Pour
tester
les
thories,
lEconomtrie utilise les donnes
observes, les informations fournies
par un chantillon.

Aujourdhui
encore,
malgr
lmancipation de lEconomtrie
depuis le fameux article de 1980 de
Sims, lon ne peut trancher en
dfaveur
du
mariage
thorie
conomique Economtrie.

Lconomtrie a principalement
recours trois types et deux formats
de donnes.

13

Ce sont les mthodes statistiques qui


permettent de mettre en uvre et
dexploiter un modle partir
dinformations
provenant
de
lchantillon.
La mthode la plus populaire en
Economtrie est celle des moindres
carrs ordinaires.

Trois types de donnes :

Selon Ado et Davidson [1998],


L'conomtrie est prcisment le
moyen qui permet au discours
conomique d'chapper la vacuit
de son formalisme, en permettant
une mise en correspondance des
thories et des faits conomiques.
C'est elle qui permet de confirmer ou

Les mthodes

Chroniques [times series en


anglais], on parle galement des
sries chronologiques ou sries
temporelles, notes Xt : sont de
donnes indices par le temps.
Ex. Le PIB de la RDC de 2000
2010.

Lire TSASA Jean Paul (2012) pour les illustrations.

En
recourant
aux
mthodes
statistiques,
et

partir
dinformations livres par le monde
rel, lconomtre poursuit un triple
objectif :

Quantifier et tester les thories


Faire des prvisions
Evaluer lefficacit des mesures
de politique conomique

Ass. Cdrick Tombola M.


d'infirmer les modles thoriques, du
moins ceux qui admettent une
reprsentation conomtrique.

Donnes en Coupe longitudinale


[cross section en anglais], on
parle aussi de coupe instantane,
notes Xi : font rfrence aux
donnes observes au mme
moment, pour des individus
diffrents. Ex. Le PIB en 2009 de
tous les pays de lAfrique
Centrale.
Donnes en Panel [pooling en
anglais], on parle aussi des
donnes croises, notes Xit :
font rfrence la combinaison
de deux premiers types. Ex. Le
PIB de 2000 2010 de tous pays
de lAfrique Centrale. On parle
aussi de cohorte, lorsque
lchantillon sond reste le
mme dune priode { lautre.

Deux formats des donnes :

Quantitatives [ex : PIB, Taux


dinflation, etc.]
Qualitatives [ex : paix, sexe,
religion, niveau dtude, etc.]

15

LEconomtrie na donc pas pour


objet dnoncer la thorie mais de la
vrifier.

Ass. Cdrick Tombola M.

16

I.4. Modle conomique versus modle conomtrique


. Modle conomique
Selon Barbancho14, un modle est lexpression mathmatique dune certaine thorie conomique.
Lexemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. Daprs cette loi,
en moyenne et la plupart du temps lorsque le revenu dun individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre { laugmentation de son revenu. Mathmatiquement, si
on note la consommation par Ct et le revenu par Yt, cette loi peut tre spcifie comme suit :
Ct= 0 + 1Yt

[avec 1 : propension marginale { consommer, 0 < 1 < 1]

En gnral, le modle spcifi par lconomiste est dfini comme tant une maquette de la ralit ou dun
phnomne sous forme dquations dont les variables sont des grandeurs conomiques.
A ce sujet, Lester C. Thurow note ceci : Les quations dcrivent quoi ressemblerait le monde rel sil
ressemblait la thorie .
. Modle conomtrique
Toujours selon Barbancho, un modle conomtrique nest autre chose quun modle conomique qui
contient les spcifications ncessaires pour son application empirique. Cest donc le modle conomique
auquel on ajoute un terme derreur ut.

Ct=0 + 1Yt + ut

[modle spcifi par lconomtre]

La premire partie de ce modle [0 + 1Yt] constitue sa partie systmatique et la deuxime [ut] sa partie
stochastique ou alatoire.
Il convient de noter galement que le terme derreur ut [bruit, perturbation ou ala] dnote de la diffrence
entre lconomiste et lconomtre. Il synthtise linfluence sur Ct [variable explique] de toutes les autres
variables oublies et des erreurs ventuelles de spcification de la forme fonctionnelle dans le modle
spcifi par lconomiste. De plus, sa prsence dans le modle rend les paramtres 0 et 1 inconnus, on ne
sait plus les calculer, il faut donc les estimer.

14

Cit par Kintambu Mafuku (2004).

17

Ass. Cdrick Tombola M.

.II.

THEORIE DE LA CORRELATION
Lanalyse de la corrlation a pour objet de prsenter les mesures statistiques destines { rendre compte du
sens et de la force de la liaison mathmatique qui peut exister entre deux variables quantitatives X et Y. Il
faut, dores et dj{, noter que dans ce cadre, la position des variables est symtrique. Lanalyse ne permet
pas de distinguer variable endogne de la variable exogne.
Loutil graphique diagramme de dispersion ou graphique nuage de points est le plus adapt et indiqu
pour dbuter ltude de la corrlation. Aprs lavoir ralis, la forme du nuage des points renseigne
partir dun simple coup dil sur le type dune ventuelle liaison entre X et Y. Plusieurs situations sont
possibles :
Figures A. Relations linaires, de gauche droite, positive et ngative.
600

600

500

500

400

400

300

300

200

200

100

100

0
0

500

1000

1500

Figures B.1. Relation non linaire monotone

2000

500

1000

Figures B.2. Relation non linaire


non monotone

10
8

10

-100

2
0

0
0

10

15 -4

-2

2000

Figures B. 3. Absence de liaison

15

1500

120
100
80
60
40
20
0
-50 -20 0
-40
-60
-80

50

100

150

Lanalyse du plot donne certes une ide sur le sens et le type dassociation entre X et Y, mais elle ne permet
pas de quantifier son intensit.
Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours
au calcul de la covariance. Si on note par n la taille de lchantillon et i le numro de lobservation, la
covariance empirique15 entre X et Y est calcule par la formule :
Cov (X, Y) =

15

La covariance empirique tant un estimateur non biais de la covariance.

18

Ass. Cdrick Tombola M.

Lide est que si X et Y covarient, leur covariance devrait tre grande. Elle serait modrment faible si les
deux variables ne covarient pas.
Malheureusement, comme mesure du degr de dpendance entre X et Y, la covariance prsente la
faiblesse dtre fortement influence par les units de mesure des variables en prsence. Cest cette limite
qui a conduit au dveloppement des coefficients de corrlation.

II.1. Coefficient de corrlation de Bravais Pearson


Le coefficient de corrlation linaire de Bravais Pearson, not rXY, est un coefficient paramtrique qui
donne la mesure du degr de liaison linaire entre deux variables quantitatives X et Y normalement
distribues. Il est donn par le rapport entre leur covariance et le produit non nul de leurs carts types.
Ainsi, il standardise la covariance et la corrige de linfluence des units de mesure des variables.
Formellement, le rXY est donn par la formule :

rXY =

[2.1]

Si lon considre les carts { la moyenne arithmtique 16, la relation [2.1] peut galement scrire comme
suit :

rXY =

[2.2]

Proprits de la covariance et proprits du coefficient de corrlation linaire


Proprits de la covariance

Proprits du rXY

Commentaires

Cov (X, Y) = Cov (Y, X)

rXY = rYX

Cov (X, X) = Var (X)

rXX = 1

Cov (k, X) = 0

rkX = 0

Comme la covariance, le rXY est symtrique.


La corrlation entre une variable et ellemme est gale { lunit.
La corrlation entre une constante et une
variable est nulle.
Le coefficient de corrlation linaire est un
nombre sans dimension dont lintervalle de
variation est : [1, +1]17.

1 rXY 1

. Hypothses fortes au calcul du rXY


Le calcul du coefficient de corrlation linaire de Bravais Pearson entre les variables X et Y nest adapt
quau strict respect des hypothses suivantes :

Les variables X et Y doivent tre quantitatives ;


Les variables X et Y doivent tre sont gaussiennes ;
La relation entre X et Y doit tre linaire 18 ;

Note : Lorsque la liaison entre X et Y est non linaire mais monotone, le r XY ne devient pas hors de propos.
Seulement, dans ce cas despce, il donne des informations sur lexistence de la liaison, mais estime mal son
intensit. Noublions pas que le coefficient de corrlation linaire sert avant tout { caractriser une liaison
linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur sur lexistence et lintensit de la
relation entre variables considres.
16

La somme des carts la moyenne arithmtique est toujours gale 0, soit


On peut aisment dmontrer que par construction, le rXY reste compris entre -1 et 1.
18
Cette information est livre par le graphique nuage des points.
17

= 0.

Ass. Cdrick Tombola M.

19

. Test sur le coefficient de corrlation de Bravais - Pearson


Puisque le travail se fait sur un chantillon, aprs calcul et avant toute interprtation, le rXY doit tre soumis
un test de significativit qui permet de vrifier si la corrlation calcule existe bel et bien au sein de la
population.
Les hypothses du test sont :
H0 : XY = 0

[hypothse dabsence de corrlation]

H1 : XY 0n

[hypothse dabsence de dcorrlation]

XY est la corrlation thorique, inconnue au niveau de la population, r XY est la corrlation empirique


estime { partir dinformations fournies par lchantillon.
Sous H0, on dmontre que la statistique du test suit une distribution de Student au seuil [5% sauf
indication contraire] et (n 2) degrs de libert.
Le test est de la forme :
Rejet H0 si

> t/2 ; (n 2) [valeur lue dans la table de Student]

. Signification clinique du coefficient de corrlation de Bravais - Pearson


La signification clinique ou linterprtation du rXY nest valable que si, aprs test, on rejette lhypothse de
dcorrlation.
Le travail dinterprtation dun coefficient de corrlation linaire se fait toujours en deux temps : une
interprtation par rapport au signe/sens de la liaison et une interprtation par rapport au degr de
dpendance.

A. Interprtation par rapport au signe

B. Interprtation par rapport lintensit

Si rXY > 0, X et Y sont positivement corrles [la


relation linaire entre X et Y est positive].
Si rXY < 0, X et Y sont ngativement corrles [la
relation linaire entre X et Y est ngative].
Si rXY = 0, X et Y sont non corrles [pas de liaison
linaire, mais possibilit dune liaison dun autre
type].

Si rXY = 1, le lien linaire entre X et Y est parfait.


Dans ce cas, lune des variables est fonction
affine de lautre, les n points (xi, yi) sont aligns.
Si 0.80 < rXY < 1, le lien linaire est trs fort.
Si 0.65 < rXY < 0.80, le lien linaire est fort [lev].
Si 0.50 < rXY < 0.65, le lien linaire est modr.
Si 0.25 < rXY < 0.50, le lien linaire est faible.
Si 0.025 < rXY < 0.25, le lien linaire est trs faible.
Si rXY proche de 0, alors il y a absence de lien
entre X et Y.

Note : Le coefficient de corrlation linaire entre deux variables quantitatives gaussiennes indpendantes

20

Ass. Cdrick Tombola M.

est nul, mais la rciproque nest pas toujours vraie. Donc r XY = 0 ne signifie pas toujours quil y a
indpendance entre X et Y. Cela peut tout simplement vouloir dire quil y a absence dune liaison
linaire entre les variables tudies.
Ceci dit, le calcul dun coefficient de corrlation doit toujours commencer par un examen graphique.
Lautre faiblesse majeure du coefficient de Bravais Pearson est dtre trs sensible aux points aberrants.

II.2. Coefficient de corrlation de rang de Spearman


Le coefficient de corrlation de Spearman, not XY, est un coefficient non paramtrique qui quantifie,
comme le rXY de Bravais Pearson, le degr dassociation linaire entre deux variables quantitatives. Il est
particulirement appropri lorsquau moins une de deux variables X et Y nest pas normalement distribue.
Son calcul ncessite que les donnes soient transformes en rang. Le rang de X est not par Ri et celui de Y
par Si. Le XY de Spearman nest rien dautre que le rapport entre la covariance (Ri, Si) et le produit non nul
de leurs carts-types. Il est donc un cas particulier du coefficient de corrlation de Bravais Pearson.
En tenant compte de certaines proprits de rang, le XY de Spearman peut tre calcul de manire plus
simple par la formule :
XY = 1

[2.3]

o Di = Ri - Si et n = nombre dobservations
Avantages du XY de Spearman sur le rXY de Bravais Pearson
Le rXY de Bravais - Pearson

Le XY de Spearman

A propos de la normalit
Pour calculer rXY, les variables doivent tre Le XY lve lhypothse de normalit. De plus, dans
gaussiennes.
le cas des variables distribues normalement, le XY
reste adapt car il fournit les mmes rsultats que
le rXY de Bravais Pearson.
Concernant une liaison non linaire monotone
Le rXY donne une ide sur le sens de la liaison mais Dans ce cas, le XY est appropri, il estime mieux
estime mal sa force.
que le rXY ce type de liaison.
La prsence des points atypiques
Le rXY est fortement influenc par la prsence des Le XY rsiste aux points aberrants. Dans ce cas, il
dviants [points aberrants].
est donc prfr au rXY.
Note : Lorsque la liaison entre les deux variables tudies est non linaire et non monotone, les deux
coefficients rXY et XY ne sont plus adapts. On peut soit transformer les donnes avant de les
calculer ou carrment, lorsquon dispose de plusieurs valeurs de Y pour chaque valeur de X ou
linverse, calculer le rapport de corrlation.
La dmarche du test statistique sur le XY de Spearman est la mme que celle sur le coefficient de
corrlation de Bravais Pearson.
Remarques importantes sur le calcul du XY de Spearman
Le calcul du coefficient de corrlation de Spearman exige que les donnes soient remplaces par leurs
rangs. Et en prsence dex aequo dans les donnes, on leur affecte un rang moyen, donn par la moyenne
arithmtique de leurs rangs respectifs.

Ass. Cdrick Tombola M.

21

Mais lorsquon compte plusieurs ex aequo, aprs avoir remplac les donnes par leurs rangs, il est conseill
de faire subir au coefficient de Spearman quelques corrections ou simplement de lui prfrer le coefficient
de Bravais-Pearson, mais calcul sur les rangs. Dans ce recueil, nous optons pour cette dernire option.
En rsum, lestimation dun coefficient de corrlation suivra toujours [sauf indication contraire], dans
lordre, les cinq tapes suivantes :
(i)
(ii)
(iii)
(iv)
(v)

Test de linarit [utiliser un diagramme de dispersion]


Test de normalit [choisir le plus appropri connaissant n]
Choix et estimation dun coefficient de corrlation
Test de significativit statistique sur le coefficient calcul
Interprtation ou signification clinique du coefficient estim [valable seulement si H0 est rejete]

Critre synthtique de choix dun coefficient de corrlation


Informations fournies par les donnes
Type de liaison

Normalit

linaire

Variables normales

Lune au moins de deux


variables est non normale
Non linaire monotone Variables normales ou non
Prsence des points atypiques

Coefficient de corrlation appropri [en termes


de robustesse]
- Coefficient rXY de Bravais Pearson
- Coefficient XY de Spearman

linaire

- Coefficient XY de Spearman

II.3. Limites de la corrlation


Les coefficients de corrlation prsents dans ce chapitre prsentent essentiellement quatre faiblesses,
savoir :

La mesure ne concerne quune relation linaire. Le coefficient de corrlation linaire sert avant
tout { caractriser une liaison linaire. Lorsquelle ne lest pas, ce coefficient peut induire en erreur,
surtout sur lintensit de la liaison entre variables considres.
La mesure ne concerne que les variables quantitatives. En prsence des variables qualitatives
comme la paix, la religion, , les deux coefficients prsents ci-haut ne sont plus adapts.
La corrlation nest ni impact ni causalit. Lobjet de la corrlation nest pas dtablir une causalit
mais simplement de rendre compte du sens et du degr dassociation ventuelle entre variables.
La corrlation peut tre fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une
corrlation leve ne peut tenir qu{ un facteur confondant ou artefact. En ralit, les deux
variables peuvent simplement tre lis un mme phnomne - source : une troisime variable
dont il faut neutraliser leffet.

Les alternatives face ces faiblesses sont notamment la corrlation pour variables qualitatives, le
coefficient de corrlation partiel, le rapport de corrlation, la rgression linaire et non linaire, la causalit,
la cointgration, etc.

22

Ass. Cdrick Tombola M.

Exercices rsolus sur la thorie de la corrlation


Exercice 1
Un chercheur dsire examiner la relation quil peut exister entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y). X est mesur en laboratoire { laide dun test dhabilit en lecture alors
que Y est estim par les sujets eux-mmes. 10 sujets ont t chantillons. Les rsultats sont :
X

20

40

30

35

15

40

Estimer la corrlation entre X et Y [passer par les cinq tapes]


Solution de lexercice 1
Etape 1. Test de linarit
10
8

Ce graphique fait tat dune association


linaire positive entre X et Y.

6
4
2
0
0

10

20

30

40

50

Etape 2. Test de normalit


Puisqutant appropri pour petit chantillon, nous appliquons le test de Shapiro Wilk.

La statistique calculer est : W =


Test sur la variable X
i

X(i)

ai

20

-15

225

0,5739

35

20,0865

-15

225

0,3291

35

11,5185

-15

225

0,2141

30

6,423

40

-15

225

0,1224

25

3,06

30

15

-5

25

0,0399

0,1995

35

20

30

10

100

35

15

225

15

40

20

400

10 40

40

20

400

=20 ; n=10 ; =5

2050

41,2875
W=
= 0.83154032
Wtable =0.842 [ 5%, pour n=10]
Puisque W<Wtable, RH0. La variable X est non
gaussienne.

Ass. Cdrick Tombola M.

23

Test sur la variable Y


i

y(i)

ai

-4

16

0,574

4,5912

-3

0,329

1,9746

-3

0,214

1,2846

-2

0,122

0,4896

0,04

10

16

0
5 ; n=10 ; =5

8,34
W=
= 0.915205263
Wtable =0.842 [ 5%, pour n=10]
Puisque W>Wtable, Non RH0. La variable Y est
gaussienne.

76

Etape 3. Choix et estimation dun coefficient de corrlation


Eu gard aux rsultats des tests de linarit et de normalit [X est non gaussienne], le coefficient de
corrlation appropri dans ce cas est le XY de Spearman. Les calculs sont confins dans le tableau ci-aprs :
X

Rang de X [Ri]

Rang de Y [Si]

Di = R i - Si

Di2

20

5,5

0,5

0,25

2,5

1,5

2,25

2,5

2,5

40

9,5

2,5

6,25

30

8,5

-1,5

2,25

35

10

-2

2,5

-1,5

2,25

2,5

2,5

15

5,5

-0,5

0,25

40

9,5

8,5

18,5

XY = 1

= 0. 887878788

Note : Deux nombres au moins identiques ont mme rang qui est donn par la moyenne arithmtique de leurs rangs
respectifs.

Etape 4. Test de significativit statistique


La statistique du test est : tcal=

= 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0

dabsence de corrlation entre X et Y, le coefficient de corrlation calcul est statistiquement significatif].


Etape 5. Signification clinique [interprtation]
Il existe bel et bien une corrlation linaire positive trs forte entre lhabilit en lecture (X) et le nombre
dheures de lecture par semaine (Y) au sein de la population tudie.

24

Ass. Cdrick Tombola M.

Exercice 2
Montrer rigoureusement que par construction le coefficient de corrlation linaire est toujours comprise
entre - 1 et 1 [Utiliser la formule de Bravais Pearson].
Solution de lexercice 2
Si le lien linaire entre X et Y est parfait, Y (X) scrirait comme une fonction affine de X (Y) :
Y = + X
Dune part, on aura :

Y = X
Dune part, on aura :

Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}

Cov (X, Y) = E(XY) = E{[X E(X)] [Y E(Y)]}

= E{[X E(X)][ + X E( + X)]}

= E{[X E(X)][ X E( X)]}

= E{[X E(X)][ + X E(X)]}

= E{[X E(X)][ X + E(X)]}

= E{[X E(X)] [X E(X)]}

= E{[X E(X)] [X E(X)]}

= [X E(X)]

= [X E(X)]

= Var(X)
Dautre part, on a ceci :

= Var(X)
Dautre part, on a ceci :

Var(Y) = E[Y E(Y)] = E[ + X E(X)]


= 2var(X)
Et par consquent,

Var(Y) = E[Y E(Y)] = E[ X + E(X)]


= 2var(X)
Et par consquent,

rXY =

rXY =

=1

Le domaine de dfinition de rXY est donc [ 1, + 1]

Exercice 3
Le tableau ci-aprs renseigne sur lvolution de loffre de jus de banane (X) et son prix en USD (Y).
N

10

11

10

11

14

12

Travail faire :
- Calculer le coefficient de corrlation appropri.
- Tester sa significativit statistique
- Evaluer sa signification clinique
Solution de lexercice 3
1. Test de linarit
10
8
6
4
2
0
0

10

15

Le diagramme de dispersion tmoigne de lexistence dune association linaire positive entre X et Y.

=1

Ass. Cdrick Tombola M.

25

2. Test de normalit
Test sur la variable X
i

ai

10

-4,5454545

20,661157

0,5601

10

5,601

-3,5454545

12,5702479

0,3315

2,3205

-2,5454545

6,47933884

0,226

1,13

11

-1,5454545

2,38842975

0,1429

0,4287

14

-0,5454545

0,29752066

0,0695

0,0695

-0,5454545

0,29752066

0,4545455

0,20661157

W=

12

10

1,4545455

2,11570248

Wtable=0,850

11

2,4545455

6,02479339

10

12

3,4545455

11,9338843

11

14

5,4545455

29,7520661

92,7272727
= 5,5

9,5497
= 0,983494579

Puisque W >Wtable, alors Non RH0. La variable X


est normalement distribue.

= 8,545454545 ; n =11 ;

Note : n tant impair, on na retenu que la partie entire du ratio , soit 5.

Test sur la variable Y


i

-1,818181818

3,30578512

0,5601

2,2404

-0,818181818

0,66942149

0,3315

0,663

-0,818181818

0,66942149

0,226

0,452

-0,818181818

0,66942149

0,1429

0,1429

-0,818181818

0,66942149

0,0695

0,0695

0,181818182

0,03305785

0,181818182

0,03305785

0,181818182

0,03305785

W=

1,181818182

1,39669421

Wtable=0,850

10

1,181818182

1,39669421

11

2,181818182

4,76033058

ai

0
13,6363636
= 6,818181818 ; n=11 ; = 5,5

3,5678
= 0,933474435

Puisque W >Wtable, alors Non RH0. La variable Y


est normalement distribue.

3. Choix et estimation dun coefficient de corrlation


Les deux variables tant gaussiennes et linairement associes, on peut indiffremment estimer le rXY de
Bravais-Pearson ou le XY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la
mme chose. Aprs calcul, on a les rsultats suivants :

Ass. Cdrick Tombola M.

Le rXY de Bravais-Pearson
0,95870624

Corrlation entre X et Y

26

Le XY de Spearman
0,95227273

4. Signification statistique du coefficient calcul


La statistique calcule est :

= 10.1129979 pour le rXY de Bravais-Pearson, et

= 9.3589914, pour le

XY de Spearman.
Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262
Conclusion : le coefficient de corrlation calcul est statistiquement non nul.
5. Signification clinique
il existe bel et bien une corrlation linaire positive trs forte entre quantit offerte de jus de banane et son
prix, ce qui est conforme la moi de loffre.

Exercice 4
A partir dun chantillon de 27 objets, on a trouv que la valeur dun coefficient de corrlation linaire tait
0.4. Peut-on en conclure, un seuil de signification de 0.05 que le coefficient de corrlation diffre
significativement de la valeur zro ? Quadviendrait la rponse obtenue prcdemment si lon considre un
seuil de signification de 0.01.
Solution de lexercice 4
Lexercice livre les informations suivantes : rXY =0.4 ; n=27 ; = 0.05.
Aprs calcul, on a tcal=2.1821789. En considrant le seuil donn, = 0.05, et 25 degrs de libert, la
table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, un seuil de signification
de 0.05 que le coefficient de corrlation diffre significativement de la valeur zro.

Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrlation devient non significatif.

Exercice 5
Soit le jeu de donnes normalement distribues ci-dessous.

Bloc I

Bloc II

Bloc III

Bloc IV

10

8,04

10

9,14

10

7,46

6,58

6,95

8,14

6,77

5,76

13

7,58

13

8,74

13

12,74

7,71

8,81

8,77

7,11

8,84

11

8,33

11

9,26

11

7,81

8,47

14

9,96

14

8,10

14

8,84

7,04

7,24

6,13

6,08

5,25

4,26

3,1

5,39

19

12,5

12

10,84

12

9,13

12

8,15

5,56

4,82

7,26

6,42

7,91

5,68

4,74

5,73

6,89

27

Ass. Cdrick Tombola M.


Travail demand :
(i)
(ii)
(iii)
(iv)

Estimer pour chaque cas le coefficient de corrlation de Bravais Pearson


Quel constat se dgage t-il de ces calculs ?
A prsent, raliser un graphique nuage des points pour chaque cas. Quelle leon peut-on tirer ?
Calculer le coefficient de Spearman pour le bloc IV. Quel avantage prsente-t-il ?

Solution de lexercice 5
(i)

Aprs calcul, on a le coefficient de Bravais-Pearson ci-aprs, pour chaque cas :


Bloc I
0,81642052

rXY
(ii)

(iii)

Bloc II
0,81623651

Bloc III
0,81628674

Bloc IV
0,81652144

Pour les 4 blocs, on obtient pratiquement la mme valeur du coefficient de corrlation de BravaisPearson, soit rXY = 0.82. Ce qui semble traduire dans ces diffrents cas, lexistence dun lien linaire
positif trs fort.
Graphique nuage ds points pour chaque bloc
Bloc I
Bloc II

15

10

10

Bloc III

Bloc IV

15

15

10

10

5
5
0

0
0

10

20

0
0

10

20

10

15

0
0

10

La leon tirer est que lestimation du coefficient de corrlation de Pearson doit toujours saccompagner dun
examen graphique. Car, comme on le voit, le coefficient estim rXY = 0.82, ne correspond, en toute rigueur,
quau premier graphique. Le deuxime, par exemple, fait tat dune liaison fonctionnelle presque parfaite
entre X et Y dont le rXY semble sous-estimer lintensit. Quant au troisime et au quatrime graphiques, il y a un
point atypique qui fausse compltement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point
aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisime et quatrime graphiques, le
coefficient de corrlation de Pearson qui tait de r XY=0.82, devient respectivement de 0.99999655 et de 0
[puisque rkX=0].
(iv)

On remarquera quau bloc IV, la variable X prsente plusieurs ex aequo, nous avons donc calcul le
coefficient de Bravais-Pearson sur les rangs.
Coefficient de Bravais-Pearson calcul sur les rangs
Bloc IV
Lien entre X et Y

0.5

A comparer au coefficient de Pearson, le coefficient de rang prsente lavantage de rsister aux points
atypiques.

20

28

Ass. Cdrick Tombola M.

Exercice 6
Voici un chantillon de deux variables gaussiennes :
X

-2

-1

Travail faire :
- Estimez le coefficient de corrlation de Bravais - Pearson
- A quoi renvoie ce rsultat ?
- Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle
nuance pouvez-vous donc formuler dans ce cas ?

Solution de lexercice 6
- Les deux variables tant supposes gaussiennes par lexercice, et puisque le test de linarit ici ne fait pas un
pralable, on passe directement lestimation du rXY comme prsente dans le tableau ci-dessous :

Moyenne

Xi

Yi

-2

-2

-4

-1

-1

-1

-2

-1

-1

10

14

(Xi

(Yi )2

Somme

(Xi )(Yi

2
rXY = 0

- rXY = 0 signifie que les variables X et Y seraient non corrles [indpendance]


- Le diagramme de dispersion des couples (xi, yi) est :
5
4
3
2
1
0
-3

-2

-1

Il ressort de ce diagramme de dispersion quil existe bel et bien une liaison [de type non linaire] entre les
variables X et Y.
La nuance faire, au vu de ces rsultats, est quun coefficient de corrlation de Bravais Pearson nul ne
devrait pas toujours sinterprter comme une absence de relation entre variables en cause. La meilleure
interprtation serait que les deux variables tudies sont non linairement corrles, car un r XY =0 laisse
toujours la possibilit dexistence, entre les variables considres, dune liaison dun autre type.

29

Ass. Cdrick Tombola M.

Exercice 7
A Washington, un journaliste a dcouvert quil existe une trs forte corrlation entre le fait davoir un nid de
cigognes sur sa demeure et le fait davoir des enfants. Do il conclut que les cigognes apportent les bbs.
Quelle remarque pouvez-vous faire une telle conclusion ?
Solution de lexercice 7
La remarque principale formuler ce type de corrlation que rien ne peut expliquer ou qui en ralit tient
un autre phnomne-source est que la corrlation peut tre fortuite ou artificielle. Par ailleurs, bien
analyser les choses, tenant compte des ralits de Washington, la prsence dun nid de cigognes sur le toit
signifierait plutt que la famille qui y habite est aise et donc dispose, financirement, avoir plus denfants.

Exercice 8
En rsolvant un TP de statistique 1 sur le calcul du coefficient de corrlation linaire, un tudiant de G1 FASE
fournit le tableau suivant :
Xi

Yi

Xi

80

32

-20

100

50

115
110

Yi

(Xi )*(Yi )

(Xi )

(Yi )

-18

360

400

324

62

15

12

180

225

144

56

10

60

100

36

70

-30

-42

1260

900

1764

125

80

25

30

750

625

900

105

62

12

72

36

144

90

50

-10

100

110

62

10

12

120

100

144

95

38

-5
1

-12
0

60
2862

25
2511

144
3600

=100

=50

rXY =

= 0.9519

Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez quil y a erreur de calcul. Par quoi la
voyez-vous ?
Solution de lexercice 8
Par la somme des carts de la variable X sa moyenne arithmtique. Cette somme est forcment gale zro,
une valeur diffrente indique tout simplement une erreur de calcul.

Exercice 9
Soient les donnes sur les variables X et Y reprises dans le tableau ci-aprs et le nuage de points
correspondant :
12

10
8

1,1

1,25

1,5

2,25

6,8

8,3

9,3

9,81

9,85

6
4
2
0
0,9

1,4

1,9

2,4

Ass. Cdrick Tombola M.

30

Estimer les coefficients de corrlation de Bravais-Pearson et de Spearman, puis commenter.


Solution de lexercice 9
Les calculs sont synthtiss dans le tableau ci-aprs :
X

xy

Ri

Si

Di

Di

-0,52

-4,84

2,50

0,2669

23,46

1,1

6,8

-0,42

-1,04

0,43

0,1736

1,09

1,25

8,3

-0,27

0,46

-0,12

0,0711

0,21

1,5

9,3

-0,02

1,46

-0,02

0,0003

2,12

9,81

0,483

1,97

0,95

0,2336

3,87

2,25

9,85

0,733

2,01

1,47

0,5378

4,03

5,21

1,28

34,77

Moyenne

1,52

7,84
rXY = 0,78

XY = 1

Les calculs montrent simplement que le XY de Spearman est prfr au rXY de Bravais-Pearson lorsque la
liaison entre X et Y est non linaire mais monotone, car comme on le voit, le r XY a sous-estim lintensit
dune relation non linaire certes, mais visiblement parfaite entre X et Y.

Exercice 10
[Il y a au moins une rponse exacte, cocher, la question suivante].
Le coefficient de corrlation linaire entre deux variables statistiques :
(a) ne peut tre calcul que si les deux variables sont quantitatives
(b) est un nombre positif ou nul
(c) nest gal zro que lorsque les variables sont indpendantes
(d) est un nombre sans dimension.

Solution de lexercice 10 : (a), (b) et (d)

31

Ass. Cdrick Tombola M.

.III.

MODELE DE REGRESSION LINEAIRE SIMPLE


III.1. Modlisation et hypothses
La corrlation, comme dveloppe au chapitre prcdent, sert avant tout { quantifier le degr dassociation
linaire entre deux variables quantitatives dont la position, dans ltude, est symtrique. Elle ne permet
donc ni dtablir une causalit, ni de mesurer limpact dune variable sur lautre.
Dans le modle de rgression linaire simple par contre, la position des variables dans lanalyse nest pas
symtrique. On connait, { priori, la variable alatoire qui cause lautre [Y=f(X)] 19, ce qui rend possible la
mesure de limpact ou de la contribution de X dans lexplication de Y. La plupart du temps, et comme le mot
lindique, le modle de rgression linaire simple considre que la variable expliquer Y est une fonction
affine de la variable explicative X. Mathmatiquement, cette dpendance linaire scrit de la sorte :
[3.1]

Yt = 0 + 1Xt

o 0 et 1 sont les paramtres du modle qui permettent de caractriser la relation de dpendance linaire
qui existe chaque date t entre Xt et Yt.
Encadr 2. Fonction affine
Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b
*]
a : est lordonne { lorigine ou lorigine
b : est la pente de la droite ou le coefficient angulaire [directeur]
La fonction affine est appele aussi fonction linaire si a =0
Graphe dune fonction affine
[considrons le cas o a > 0 et b > 0]
La pente dune droite mesure la variation de Y quand
on se dplace le long de la droite en accroissant X
dune unit.
Y

Y = a + bX
E

Gomtriquement, la pente b est donne par :

b = tg () =
Y = Y1 Y0

D
a

Et lquation dune droite passant par deux points, de


coordonnes (X0, Y0) et (X1, Y1), est :

X = X1 X0

Y Y0 = b (X X0)
0

b=

19

Algbriquement, la pente
drivant Y par rapport X :

ou

b=

sobtient

en

[Si donnes discrtes]

Cette information est gnralement fournie par la thorie conomique, ou peut simplement dcouler de lobjectif de
ltude du modlisateur.

32

Ass. Cdrick Tombola M.


Sous sa spcification conomtrique, le modle [3.1] scrit comme suit :
[3.2]

Yt = 0 + 1Xt + ut

Dans ce cas de la rgression linaire simple 0 est le terme constant ou lorigine et 1 la pente.
Comme pour la corrlation, avant toute analyse, il intressant de toujours commencer par un examen
graphique travers un diagramme de dispersion du type de relation qui lie les deux variables
considres. Il faut noter, par ailleurs, que le raisonnement qui sera dvelopp dans la suite de ce chapitre,
ne peut sappliquer que si Y peut scrire comme une fonction affine de X.
Considrons le jeu de donnes ci-aprs o un chercheur veut expliquer lhabilit en lecture (Y) de dix sujets
chantillonns par le nombre dheures de lecture par semaine (X). Y est mesure en laboratoire { laide
dun test dhabilit en lecture alors que X est estim par les sujets eux-mmes.
Y

20

40

30

35

15

40

Dun point de vue pratique, rgresser Y sur X prsente un objectif double :

Ajuster un modle linaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il
sagit de faire un ajustement linaire, cest--dire de remplacer le nuage de points des couples (x i,
yi) par une droite qui sy adapte le mieux que possible.
Prdire les valeurs de Y pour les nouvelles valeurs de X.

Pour le jeu de donnes ci-dessus, on a les graphiques suivants :


Graphique nuage de points

Sens de lajustement linaire

50

50

40

40

30

30

20

20

10

10

et

0
0

10

10

Lajustement linaire [ou rgression linaire] consiste donc { tracer une droite dajustement appele
galement droite de rgression qui, sans passer par tous les points du nuage, sy approche le mieux. Pour
a, il faut donc un critre quantifiant la qualit de lajustement.
Le critre auquel on se rfre dans ce chapitre, et trs souvent en conomtrie, est le critre ou la mthode
des Moindres Carrs Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares]
pour dsigner la mme mthode.

20

Certains auteurs ironisent en disant que la mthode nous sert { mettre un chapeau sur nos .

33

Ass. Cdrick Tombola M.


Hypothses
Lapplication du critre des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses sur la partie systmatique

Hypothses sur la partie stochastique

H1. Les variables X et Y sont observes sans erreur. Y est

H5. Hypothse de centralit : E(ut)=0

alatoire par lintermdiaire de ut, cest--dire que la seule


erreur possible sur Y provient des insuffisances de X
expliquer ses valeurs dans le modle.
H2. Les variables X et Y doivent tre gaussiennes et
stationnaires en niveau.
H3. Le modle est linaire en ses paramtres tels que
lexprime lquation [3.2].
H4. Le nombre dobservations n doit tre suprieur au
nombre des paramtres estimer.

Cest--dire quen moyenne, linfluence de ut sur le


modle est nulle, ce qui revient admettre que le modle
est correctement spcifi.
H6. Hypothse non autocorrlation des erreurs :
E(uiuj) = 0
i j
Les erreurs ut de diffrentes priodes sont indpendantes
les unes des autres.
H7. Hypothse dhomoscdasticit des erreurs :
E(uiuj) =
i =j
Les erreurs ut ont une variance constante et finie. Plus
explicitement, il sagit dassumer que les variables
explicatives omises dans le modle influent toutes
pratiquement de faon constante sur la variable
explique.
H8. Hypothse de normalit des erreurs: ut (0, )
Cette hypothse est la cl de linfrence statistique. Elle
est donc ncessaire pour mener les tests.
H8. Hypothse dindpendance entre la partie systmatique et la partie alatoire : Cov (Xt, ut)=0.
Cette hypothse signifie que lerreur et les variables explicatives ont une influence spare sur la variable endogne.

Note : (i) Lorsque les hypothses H4, H5 et H6 sont ralises, on dit que les erreurs sont des bruits blancs.
Et lorsquon y ajoute lhypothse H7, on parle des bruits blancs gaussiens.
(ii) Lorsque toutes les hypothses sous-tendant la mthode des MCO sont remplies, le thorme de
Gauss Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], cest--dire quils
sont les meilleurs estimateurs linaires, non biaiss et variance minimale.

III.2. Estimateurs des moindres carrs ordinaires


Le critre des MCO permet dobtenir lquation de la meilleure droite dajustement :
galement droite des moindres carrs.

Xt, appele

Le travail, qui permet dobtenir la droite, consiste choisir les paramtres


et , en utilisant les
informations apportes par lchantillon, de manire rendre minimale la somme des carrs des carts
[rsidus] entre les valeurs observes de Y et ses valeurs prdites par le modle.
Note : Les rsidus, nots et, sont lestimation de lerreur ut sur base de donnes de lchantillon [et =
est donne par : et = Yt .
Mathmatiquement, le critre des MCO se prsente comme suit :
Min S =

=
=

La dtermination de

et

se fait en appliquant les conditions du premier ordre :

=0

[3.3]

=0

[3.4]

], elle

Ass. Cdrick Tombola M.

34

En appliquant ces drives partielles, on obtient les quations normales, partir desquelles sont tirs les
estimateurs des MCO :

Y = n

XY =

X +

[3.5]

X2

[3.6]

A partir de [3.5], en divisant toute la relation par n, on dtermine lestimateur de 0 :


=

[3.7]

Aprs substitution de

dans la deuxime quation normale [3.6], on tire lestimateur de 1 :

[3.8]

Un dveloppement mathmatique simple permet dexprimer


entre X et Y et de la variance empirique de X.
=

par le produit de la covariance empirique

[3.9]

En utilisant les variables centres,

est donne par le rapport :

[3.10]

et sont donc les estimateurs des moindres carrs ordinaires.


entirement la dpendance linaire de Y envers X.

est le paramtre dintrt qui capture

1re consquence : La droite des moindres carrs =


+ Xt passe forcment par lorigine
et le point
de coordonnes ( , ), appel le centre de gravit ou le point moyen du nuage de points. Pour le vrifier, il
suffit de raliser une projection pour le point

:
( )=

=(
)+
=
Ce rsultat montre que lorsquon travaille sur les carts { la moyenne arithmtique [variables centres], on
reste sur la mme droite dajustement ce qui implique que la pente
les axes jusquau centre de gravit.
Y45

reste inchange , mais lon soulve

40
35
30
25

( , )

=20

15
10
5

0
0

=5

10

35

Ass. Cdrick Tombola M.

Ainsi, en travaillant avec les carts { la moyenne arithmtique, lorigine

peut disparaitre

momentanment, car une petite manipulation suffit le retrouver. La fonction affine


linaire :
=

Xt devient

[3.11]

2me consquence : la droite des moindres carrs a pour quation :

(Xt )

On dmontre aussi que la moyenne arithmtique de

[3.12]

est gale

=
=

=
3me consquence : la somme et donc la moyenne arithmtique des rsidus est nulle dans une rgression
avec constante. En effet :
=
=n -n

-n

= n n(
)-n
=0
4me consquence : il existe un lien entre la pente dune rgression linaire simple
corrlation de Bravais Pearson rXY:

et le coefficient de

= rXY
Lcart type tant non ngatif, la pente
mme signe.

et le coefficient de corrlation de Pearson r XY auront toujours le

Synthse des formules des formules pour lestimation des 0 et 1


Donnes brutes
Modle estim

Variables centres

Xt

=
=

rXY connu
+

Xt

Connaissant lorigine
et le centre de gravit

Equations normales

Formules

Y = n

XY =

X +

Estimateurs

- Tracer la droite des


moindres carrs ;

X
X2

21

= rXY

est la pente de la
droite, soit :

=
=

21

Lestimateur est une formule, et lestimation est la valeur quon trouve en appliquant lestimateur.

Ass. Cdrick Tombola M.

36

III.3. Dcomposition de la variance totale et coefficient de dtermination R

Lanalyse de la variance a pour objet de driver un indicateur synthtique, appel coefficient de


dtermination R2, qui value la qualit de lajustement ralis en appliquant le critre des moindres carrs. Il
indique donc dans quelle mesure, la variable explicative X nous permet damliorer nos connaissances sur la
variable endogne Y.
Soit

yt =

+ et

[3.13]

La somme des carrs, dans [3.13], donne :

[3.14]

Aprs dveloppement de la relation [3.14], on obtient lquation danalyse de la variance :


SCT = SCE + SCR
= +

[3.15]
[3.16]

Interprtation de lquation danalyse de la variance :

SCT est la somme des carrs totaux. Elle indique la variabilit totale de Y.
SCE est la somme des carrs expliqus. Elle indique la variation de Y due sa rgression linaire sur X.
SCR est la somme des carrs rsiduels. Elle indique la variabilit de Y non explique par le modle.

Drivation du coefficient de dtermination R

A partir de lquation [3.15], le R correspond au rapport :


2

[3.17]

Ainsi, le R peut tre interprt comme la proportion de variance de Y explique par le modle.
Toujours partir de la relation [3.15], on peut dduire les informations suivantes :
Au meilleur des cas
SCR = 0
SCT = SCE
2
R =1
Le modle est parfait, la droite de rgression passe
par tous les points du nuage.
Intervalle de variation du R

Au pire des cas


SCE = 0
SCT = SCR
2
R =0
Le modle est mauvais, la meilleure prdiction de Y
est sa propre moyenne.

0R
2

Autres formules du R

= 1-

=
=

Avec
la pente de la droite de rgression de X sur
Y, soit = + Yt.
2
Plus le R est proche de 1, meilleur est lajustement, la connaissance des valeurs de X permet de

Ass. Cdrick Tombola M.

37

deviner avec prcision celles de Y.


2
Plus le R est proche de 0, mauvais est lajustement, X napporte pas dinformations utiles sur Y.
2
Il faut tout de mme faire attention quant au crdit accorder au R , il doit toujours tre accompagn
dautres tests [Student et Fisher essentiellement] avant de trancher sur la bont dun modle, mais il
reste un critre non ngligeable pour la prvision.

Relation entre le coefficient de corrlation de Pearson et le R

2
2

Pour une rgression linaire simple, et seulement dans ce cas, le R nest rien dautre que le carr du
coefficient de corrlation de Pearson. La dmonstration est relativement simple.
Partant de la relation

= rXY

, on peut tirer rXY et en llevant au carr, on a :


=
=

=
=

=
2

=R
Par consquent rXY = signe ( )

Note : Comme le coefficient de corrlation linaire de Pearson, le R , pour une rgression linaire simple,
est symtrique.

III.4. Test de significativit des paramtres


Etant donn que les valeurs
et
ne sont que des estimations des paramtres 0 et 1 inconnus de la
population, il faut donc sassurer de leur fiabilit statistique. Pour appliquer les tests sur les paramtres, il
est important de connatre leurs variances et la variance rsiduelle.
La dmonstration22 du thorme de Gauss Markov conduit la construction de la matrice symtrique
des covariances variances suivante23 :

Et la variance rsiduelle est donne par :

22
23

Pour les dtails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010).
Appele souvent matrice COVA, note par la lettre Omega ().

Ass. Cdrick Tombola M.

38

Test de significativit individuelle


Le test de significativit individuelle porte sur chaque paramtre. Les hypothses du test sont :
H0 : i = 0

[le paramtre est statistiquement nul, non significatif]

H1 : i 0n

[le paramtre est statistiquement non nul, significatif]

Il sagit dun test bilatral [two-tail ou two-sided]24. Il est bas sur la statistique t de Student calcule
comme suit :
=

[3.18]

Sous H0, la formule [3.18] devient :


=

[3.19]

On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n 2) degrs de libert.
Critre de dcision : Si

> t/2 ; (n 2) [valeur lue dans la table de Student], alors RH0, le paramtre

est

statistiquement non nul, la variable lui associe est par consquent non pertinente dans la prdiction de Y.
Intervalle de confiance des paramtres i
Le RH0 revient simplement { refuser que le paramtre i de la population est nul, cela ne signifie nullement
que serait la vraie valeur du paramtre i. Ainsi, on peut, en se basant sur les paramtres estims
assumant un risque donn, construire des intervalles de confiance pour les paramtres i.

et en

Ces intervalles de confiance sont trouvs en appliquant la formule :


I=

t/2 ; (n 2)

[3.20]

Test de significativit conjointe ou globale


Un autre test consiste tester la significativit conjointe de tous les paramtres estims du modle. Cest le
tes bas sur la statistique de Fisher, appel aussi test danalyse de la variance ANOVA. La statistique du test
est donne par le rapport suivant :
F=

[3.21]
2

Une manipulation simple permet dexprimer F en fonction du R comme ci-aprs :

F=

[3.22]

Le test F teste statistiquement la raison dtre du modle. Par ailleurs, partant de la relation [3.22], daucuns
considrent quil teste la significativit du coefficient de dtermination.

24

Cest--dire que H0 est rejete que le coefficient soit positif ou ngatif.

Ass. Cdrick Tombola M.

39

Dans le cas dune rgression linaire simple, le test F est confondu au test de significativit individuelle de la
pente. Les deux tests sont bass sur les mmes hypothses, et on dmontre dans ce cas que :
F=

[3.23]

Preuve :
F=

Les hypothses du test sont donc25 :


H0 : 1 = 0

[le modle nest pas bon]

H1 : 1 0n

[le modle est bon]

Comme on le voit, valider la significativit de la pente revient, en mme temps, admettre la bont du
modle.
Sous H0, on dmontre que la statistique F suit une loi de Fisher respectivement 1 et (n-2) degrs de libert.
Critre de dcision : Si F > F [1 ; (n 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on
rejette H0, le modle est bon.
Significativit de la pente versus significativit du r XY de Bravais Pearson
Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient tester rXY = 0.
Cela implique quaccepter la significativit de la pente, cest accepter galement la significativit du
coefficient de corrlation linaire.
En effet, en considrant les relations [3.22] et [3.23], et en sachant que le R 2 correspond au carr du rXY, on
tablit :
=

25

Le test de significativit globale ne porte que sur les paramtres associs aux variables exognes.

Ass. Cdrick Tombola M.

40

III.5. Prvision dans le modle de rgression linaire simple


Lun des objets de lajustement linaire quon effectue est de nous aider { prdire les valeurs de Y pour les
nouvelles de X, bref prvoir.
Connaissant la nouvelle valeur de X pour un horizon h, note Xn+h, on distingue deux types de prvision de la
valeur de Y { lhorizon considr : la prvision ponctuelle et la prvision par intervalle.

La prvision ponctuelle est trs simple. Connaissant Xn+h, il suffit de substituer cette valeur dans
lquation estime pour obtenir la valeur correspondante de Y, soit :
=

Xn+h

[3.24]

Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ciaprs :
I=

Yn+h

t/2 ; (n 2)

[3.25]

est lcart-type de lerreur de prvision26. Il est donn par la formule :

[3.26]

Encadr 3. Rgression sans terme constant


Soit le modle : Yt = Xt + ut
Le travail destimation de ce modle doit inclure les nuances suivantes :

La droite des MCO passe forcment par l'origine des axes ;


La droite des MCO ne passe plus forcment par le barycentre ou le centre de gravit du nuage des
points ;
La dcomposition de la variance telle que dcrite dans ce chapitre n'est plus valable ;
Le test d'analyse de la variance (Fisher) n'a plus de sens ;
Le coefficient de dtermination R2 ne peut plus tre lu en termes de proportion de variance
explique par la rgression. Il peut mme prendre des valeurs ngatives ;
La pente de la rgression peut tre interprte d'une autre manire. Elle reprsente directement
le rapport entre les variables cest--dire

L'estimateur des MCO de la pente de la rgression sans constante s'crit :

L'estimateur de la variance de l'erreur et le Student thorique doivent tenir compte des degrs de libert,
cest--dire :
=

et

t/2 ; (n 1)

Source : Adapt de R. Rakotomalala, 2011.

26

Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.

Ass. Cdrick Tombola M.

41

Exercices sur le modle de rgression linaire simple


Exercice 1
Le tableau ci-dessous reprsente lvolution du revenu disponible brut et de la consommation des mnages
en euros pour un pays donn sur la priode 1992-2001. [Pour les calculs, prendre 4 chiffres aprs la virgule].
Anne
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001

Revenu
8000
9000
9500
9500
9800
11000
12000
13000
15000
16000

Consommation
7389.99
8169.65
8831.71
8652.84
8788.08
9616.21
10593.45
11186.11
12758.09
13869.62

On cherche expliquer la consommation des mnages (C) par le revenu (R), soit :
Ct = + Rt + ut
Travail faire :
(i)
Tracer le nuage de points et commenter.
(ii)
(iii)
(iv)
(v)
(vi)
(vii)
(viii)
(ix)
(x)

(xi)

Estimer la consommation autonome et la propension marginale consommer et .


En dduire les valeurs estimes de Ct.
Calculer les rsidus et vrifier la proprit selon laquelle la moyenne des rsidus est nulle.
Calculer lestimateur de la variance de lerreur.
Tester la significativit de la pente.
Construire lintervalle de confiance au niveau de confiance de 95% pour le paramtre .
Calculer le coefficient de dtermination et effectuer le test de Fisher permettant de dterminer
si la rgression est significative dans son ensemble.
Ecrire et vrifier lquation danalyse de la variance. Interprter.
Aprs un travail minutieux, un tudiant de L1 FASE trouve le coefficient de corrlation linaire
entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativit de ce
coefficient. Argumenter.
En 2002 et 2003, on prvoit respectivement 16800 et 17000 euros pour la valeur du revenu.
Dterminer les valeurs prvues de la consommation pour ces deux annes, ainsi que
lintervalle de prvision au niveau de confiance de 95%.

Solution de lexercice 1
(i)

Le graphique nuage de points est donn ci-dessous :


15000
10000
5000
0
0

5000

10000

15000

20000

Ass. Cdrick Tombola M.

42

Ce graphique tmoigne de lexistence dune association linaire positive, presque parfaite, entre la
consommation des mnages (Ct) par le revenu (Rt), ce qui autorise lestimation de la relation les liant par la
mthode des moindres ordinaires.
(ii)

Pour simplifier lestimation de la consommation autonome ( ) et de la propension marginale

consommer , posons ce qui suit :


Yt =Ct ; Xt = Rt ; =0 et = 1. Ce qui nous permet dcrire le modle donn dans lexercice comme suit :
Yt = 0 + 1Xt + ut
A partir des calculs effectus dans le tableau ci-dessous, on a :
Estimation de la propension marginale consommer

= 0,78098

Estimation de la consommation autonome


=

= 9985,575 0,78098(11280) = 1176,0896

Le modle estim est par consquent :

= 1176,0896 + 0,78098Xt.

(iii)

Voir tableau ci-dessous. Ces valeurs sont trouves en remplaant dans lquation de la droite des
moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur.

(iv)

Voir tableau ci-dessous. Les rsidus sont calculs daprs la formule et =

(v) Lestimateur de la variance de lerreur est donne par

, connaissant n =10 et

(voir

tableau), on obtient :
=

20646,1728

(vi) La pente ici est la propension marginale consommer, soit . Le test de significativit de ce
coefficient requiert son cart-type
. Connaissant la variance de lerreur, la variance de est calcule comme
suit :

Var ( ) =

= 0,0003

0,0179

Par consquent son ratio de Student est :


=
Puisque
(vii)

= 43,5352

=
> ttable

la pente

t0.025 ; 8 = 2.306.
est statistiquement significative.

Lintervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramtre 1 est
construire comme suit :
I = [ (t0.025 ; 8)
;
+ (t0.025 ; 8) ]

En faisant les remplacements ncessaires, on trouve : I = [0,7396 ;

0,8224]

Ass. Cdrick Tombola M.

Le coefficient de dtermination R2 peut tre calcul par la formule (les valeurs viennent du tableau
ci-dessous) :

(viii)

43

0,9958

Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit :


= (43,5352)2 = 1895,3136

F=

F [1 ; 8] = 5, 32. Puisque F >Ftable

RH0, la rgression est significative dans son

ensemble.
(ix)

Lquation danalyse de la variance est :


SCT = SCE + SCR

39296098,1837 =39130928, 8011 +165169, 3826

(x) Nous savons que dans un modle linaire simple, accepter la significativit de la pente revient
accepter celle du coefficient de corrlation linaire. La pente
naturellement.

tant significative, le rXY lest aussi

(xi) La prvision ponctuelle ne pose aucun problme. La prvision par intervalle requiert lestimation de
lcart-type de lerreur de prvision. Elle est donne par :
Yn+h

I=

(t0.025 ; 8)

o
=
En effectuant les remplacements ncessaires, au niveau de confiance de 95% (au seuil de 5%), on a les rsultats
suivants :
Prvision ponctuelle
2002

= 1176,0896 + 0,78098(16800) = 14296,5998

2003

= 1176,0896 + 0,78098(17000) = 14452,7963

Prvision par intervalle


Yn+h [13949,0697 ; 14644,1299]
Yn+h

Le tableau rcapitulant tous les calculs est repris ci-dessous.

[14105,2657 ; 14800,3269]

44

Ass. Cdrick Tombola M.

Anne

Yt

Xt

yt

xt

xtyt

1992

7389,99

8000

-2595,585

-3280

8513518,8

10758400

7423,9516

-33,9615958

1153,389989

6737061,4922

-2561,6234

6561914,4650

1993

8169,65

9000

-1815,925

-2280

4140309

5198400

8204,93434

-35,28434098

1244,984718

3297583,6056

-1780,6407

3170681,1566

1994

8831,71

9500

-1153,865

-1780

2053879,7

3168400

8595,42571

236,2842864

55830,26401

1331404,4382

-1390,1493

1932515,0386

1995

8652,84

9500

-1332,735

-1780

2372268,3

3168400

8595,42571

57,41428643

3296,400286

1776182,5802

-1390,1493

1932515,0386

1996

8788,08

9800

-1197,495

-1480

1772292,6

2190400

8829,72054

-41,64053713

1733,934332

1433994,2750

-1155,8545

1335999,5393

1997

9616,21

11000

-369,365

-280

103422,2

78400

9766,89983

-150,6898313

22707,42527

136430,5032

-218,6752

47818,8294

1998

10593,5

12000

607,875

720

437670

518400

10547,8826

45,56742347

2076,390081

369512,0156

562,3076

316189,8106

1999

11186,1

13000

1200,535

1720

2064920,2

2958400

11328,8653

-142,7553217

20379,08188

1441284,2862

1343,2903

1804428,8884

2000

12758,1

15000

2772,515

3720

10313755,8

13838400

12890,8308

-132,7408121

17620,12319

7686839,4252

2905,2558

8440511,3336

2001

13869,6

16000

3884,045

4720

18332692,4

22278400

13671,8136

197,8064427

39127,38879

15085805,5620

3686,2386

13588354,7011

50104729

64156000

165169,3825

39296098,1837

39130928,8011

n=10 ;

et

=9985,575
=11280

Exercice 2
Soit le modle linaire Yt = 0 + 1Xt + ut. O Yt reprsente la quantit offerte de pommes et Xt le prix.
On donne les informations suivantes : = 5 et =3.
Aprs estimation, on a la droite de rgression suivante :

Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de rgression, trouver

et

Solution de lexercice 2
Connaissant le couple (Y=2.5 ; X=2) et le centre de gravit du nuage de points ( = 5 ;
aprs :
Y
X

5
3

2.5
2

=3), on peut reproduire la droite des moindres carrs de cette estimation comme ci-

Ass. Cdrick Tombola M.

45

5,5
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0

En mesurant la pente de cette droite, on trouve la pente


Connaissant la pente
=

et les deux moyennes

et

= 2,5.

est calcul comme suit :

= 5 (2,5)3 = 2,5

Et le modle estim (quation de la droite des MCO) est :

= 2,5+ 2,5Xt

Exercice 3
Soit un modle linaire simple : Yt = 0 + 0Xt + ut
On donne les informations suivantes :
YX=184500 Y2=26350 X2=1400000

=60

=400

n=7

Travail demand :
-

Estimer les coefficients du modle


Evaluer la qualit de cet ajustement
Tester la significativit globale du modle

Solution de lexercice 3
En fonction des donnes en prsence, les formules suivantes seront utilises pour rpondre aux trois questions
poses :

R2 =

F=

et

Aprs calcul, sachant que YX =XY, on a les rsultats suivants :


=0,0589 ;

= 36,44 ; R2=0,8455 ; F = 27, 3618

Le R2 tant relativement lev, environ 85%, lajustement effectu est de bonne qualit. Et puisque F > F
6,61, on en conclut que le modle est globalement bon.

[1 ; 5]

Ass. Cdrick Tombola M.

46

Exercice 4
Soit le modle : Yt= 0 + 1Xt + ut
Yt : salaire moyen horaire par jour [en USD]
Xt : nombre dannes dtudes
On donne par ailleurs les informations suivantes : rXY= 0.951916 ; x=3.894440 et y=2.945636
Aprs estimation, sur base dun chantillon de 13 observations, un tudiant de L1 FBA prsente les rsultats
incomplets ci-aprs :
= 0.030769 + .. Xt
Travail demand :
(i)
(ii)
(iii)
(iv)
(v)

Complter les pointills.


Tester la significativit du rXY.
Interprter ces rsultats. Semblent-ils logiques ?
Calculer le R2.
Tester la significativit de la pente et la significativit densemble du modle.

Solution de lexercice 4
(i)

Connaissant rXY, x et y, la pente

est estime par la formule

= rXY

, ce qui donne, en

remplaant :
=0, 7200. On a ainsi :
= 0,030769 + 0, 7200 Xt
(ii)

Le t calcul pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on
conclut que le rXY est statistiquement non nul.

(iii)
Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre dannes dtudes. En
effet, ces rsultats semblent logiques car il est tout fait normal que ceux qui beaucoup tudi gagnent un peu
plus que ceux qui ont tudi un peu moins.
(iv)
On sait que, pour un modle de rgression linaire simple avec terme constant, le R 2 nest rien
dautre que le carr du coefficient de corrlation de Bravais Pearson. Ainsi :
R2 = (0, 951916)2 = 0,9061
(v)
Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modle linaire
simple, le F nest rien dautre que le carr du t de Student associ la pente. Le t de Student de la pente est
donc obtenu en prenant la racine carr de F, soit :
10,3054 > t0.025 ; 11 = 2,201
En conclusion, la pente est statistiquement significative et le modle est valable dans lensemble.

47

Ass. Cdrick Tombola M.

Exercice 5
Le tableau suivant donne lge et la tension artrielle Y de 12 femmes :
Individu
Age (X)
Tension artrielle (Y)

1
56
136

2
42
132

3
72
136

4
36
130

5
63
138

6
47
132

7
55
136

8
49
130

9
38
142

10
42
134

11
68
136

12
60
140

Travail demand :
(i)
(ii)
(iii)

Dterminer lquation de la droite de rgression de Y sur X.


Tester la significativit de la pente. Quelle conclusion peut-on tirer ?
Estimer la tension artrielle dune femme ge de 50 ans.

Solution de lexercice 5
Lquation de la droite de rgression de Y sur X est :
= 129,5193 + 0,1079Xt
(5,0449) (0,0942)
(.) : cart-type
La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student thorique, au seuil de 5% et
10 degrs de libert est ttable = 2,228. Do la pente est statistiquement nulle, ce qui signifie que lge nexplique
en rien la tension artrielle.
La tension artrielle dune femme ge de 50 ans est :

= 129,5193 + 0,1079(50) =134,9149

Exercice 6
Les donnes statistiques ci-dessous portent sur les poids respectifs des pres et de leur fils an.
Pre
Fils

65
68

63
66

67
68

64
65

68
69

62
66

70
68

66
65

68
71

67
67

69
68

71
70

Travail demand :
(i)
(ii)
(iii)
(iv)

Calculer la droite des moindres carrs du poids des fils en fonction du poids des pres.
Calculer la droite des moindres carrs du poids des pres en fonction du poids des fils.
Que vaut le produit des pentes des deux rgressions ?
Juger de la qualit des ajustements faits en (i) et (ii).

Solution de lexercice 6
Soient Y=Fils et X=Pre.
La droite des moindres carrs du poids des fils en fonction en fonction des pres, aprs estimation est :
= 35,8248031 + 0,47637795Xt
Et la droite des moindres carrs du poids des pres en fonction en fonction des fils, aprs estimation est :
= -3,37687366 + 1,03640257Xt

Ass. Cdrick Tombola M.

48

Le produit de deux pentes donne le R2 qui, comme le coefficient de corrlation linaire, est un indicateur
symtrique. On a ainsi :
R2 =0,47637795 * 1,03640257 = 0,49371933
Au regard de la valeur du R2 faible, environ 49%, les ajustements effectus en (i) et (ii) ne sont de bonne qualit.

Exercice 7
Cocher la bonne la rponse.
1. La droite des MCO dune rgression linaire simple avec constante passe-t-elle par le point ( , ) ?
A. Toujours
B. Jamais
C. Parfois
2. Pour une rgression linaire simple, le R2 est symtrique :
A. Oui
B. Non
C. Parfois
3. Pour une rgression linaire simple, le R2 correspond au carr du F de Fisher :
A. Oui
B. Non
Solution de lexercice 7
1 A ; 2A ; 3B.

Exercice 8
Soient les donnes suivantes :
= 114

= 36

= 226

= 702

Estimer la relation Yt = 0 + 1Xt + ut

Indication : n = 6.

Exercice 9
Soit le modle suivant sans terme constant : Yt = Xt + ut.
Trouver lestimateur

des MCO.

Solution de lexercice 9
En appliquant le critre des MCO, minimisation de la somme des erreurs quadratiques, cette relation, on
obtient :

49

Ass. Cdrick Tombola M.

Exercice 10
Soit les rsultats dune estimation conomtrique :
= - 32.95 + 1.251Xt
n = 20
R2 = 0.23
= 10.66
1)

A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme
des carrs des rsidus (SCR), la somme des carrs totaux (SCT), la somme des carrs expliqus
(SCE), la statistique F de Fisher et lcart-type de la pente.
2) La pente est-elle significativement suprieur 1 ?

Exercice 11
Montrer algbriquement que :

1. La somme des rsidus est toujours gale 0.


2. Tester lhypothse H0 : 1 = 0 [avec 1 la pente], revient { tester lhypothse rXY = 0.
Solution de lexercice 11 : voir texte.

Exercice 12
Le tableau ci-aprs renseigne sur la quantit offerte dun bien (Y) et son prix (X)
N
Y
X

1
23
5

2
25
7

3
30
9

4
28
6

5
33
8

6
36
10

7
31
9

8
35
7

9
37
8

10
42
11

Travail faire :
(i)
(ii)
(iii)
(iv)

Tracer le diagramme de dispersion et commenter.


Rgresser Y sur X.
Calculer les rsidus de cette rgression.
Juger de la qualit de cet ajustement.

(v)

Tester la significativit individuelle et conjointe des paramtres.

Exercice 13
Le coefficient de corrlation linaire entre deux variables X et Y est r = 0.60. Si les carts-type de X et Y sont
respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les quations de rgression
de Y en X et de X en Y.

Ass. Cdrick Tombola M.

50

.IV.

MODELE DE REGRESSION LINEAIRE MULTIPLE


IV.1. Formulation et hypothses de base
Le modle de rgression linaire multiple nest quune extension du modle de rgression linaire simple au
cas multivari dans lequel interviennent plusieurs variables exognes dans lexplication du phnomne
tudi. On parle aussi de modle de rgression linaire gnral ou standard pour souligner que ce modle
reste valable quel que soit le nombre dexognes qui sy figurent. Dans sa forme gnrale, il scrit de la
sorte :

o chaque
est un coefficient marginal qui aprs estimation saisit, ceteris paribus, leffet dune
variation dun point de la variable exogne Xj sur la variable endogne ; t=1, , n correspond { la date des
observations.
Si lon considre plusieurs dates, la relation [4.1], sous forme matricielle, scrit :

o k est le nombre de variables explicatives, k+1 le nombre de paramtres que lon prendra lhabitude de
noter par K dans la suite de ce chapitre.
Sous forme compacte, on a :
[4.2]

Y = X + U

En principe, le critre des moindres carrs ordinaires, comme pour le modle simple, ne soulve aucune
difficult, la diffrence que pour le modle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan.

En algbre linaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace 3 dimensions, la
notion dhyperplan est confondue avec celle de plan, mais cela nest plus vrai quand on dpasse 3 dimensions.

Ass. Cdrick Tombola M.

51

Hypothses de base
La mthode des moindres carrs ordinaires repose sur les hypothses suivantes :
Hypothses stochastiques
H1. Les erreurs sont IID

Hypothses structurelles

(0,
). Cette hypothse implique que
les erreurs sont normalement distribues, non-autocorrles et
homoscdastiques.

H3. Le modle est linaire ou linarisable en X

Formellement, on a :

H4. Les exognes Xj et la variable endogne Y

[ou sur ses paramtres] tels que lexprime la


relation [4.2].

sont observes sans erreur. Y est alatoire par


lintermdiaire de ut.

H5. Les exognes Xj et la variable endogne Y


sont gaussiennes et stationnaires en niveau.

H6. Le nombre dobservations n doit tre


suprieur au nombre des paramtres estimer.

H7. La matrice XX est non singulire de rang K,


cest--dire
et
existe. Cette
hypothse implique labsence de colinarit
entre les exognes, autrement dit les diffrents
vecteurs Xj sont linairement indpendants. En
cas de multicolinarit, la mthode des MCO
devient dfaillante.

H2. Il y a indpendance entre la partie systmatique et la partie


stochastique, soit E(XU) = 0.

IV.2. Estimateurs des MCO et proprits


Comme vu au chapitre prcdent, les diffrents sont obtenus en minimisant la somme quadratique des
rsidus. Mathmatiquement, le problme se prsente comme suit :
[4.3]
En notation matricielle, la relation [4.3] scrit :
[4.4]
Par consquent, on a :
[4.5]

Un bref rappel matriciel est propos en annexe 1 de ce chapitre.

Ass. Cdrick Tombola M.

52

En effectuant dans la parenthse, il vient :


[4.6]
Les termes
et
tant des scalaires provenant des variables identiques, ils sont gaux et on peut
donc les regrouper. Ce qui permet dcrire :
[4.7]
En appliquant les conditions du premier ordre, on obtient les quations normales telles que :

En considrant un modle simple, la relation [4.8] devient :

En effectuant dans chaque bloc, on obtient :

On retrouve ainsi les quations normales, vues au chapitre prcdent, pour un modle simple. Mais
pourquoi normales ? La rponse cette question est propose ci-aprs.
Dans le systme ci-haut, renvoyons tous les termes dans un membre, il vient :

Exprime sous forme vectorielle, la dernire quation scrit : Xe = 0. Un vecteur tel que e, orthogonal
tout vecteur de lhyperplan engendr par X, est dit normal { lhyperplan. Do le qualificatif "dquations
normales".
En pratique, lestimation ponctuelle par les MCO se fait en pr-multipliant chaque ct de la relation [4.8]
par
, ce qui permet dcrire******** :
[4.9]
********

est une matrice forcment symtrique, de mme que son inverse (

)1.

Ass. Cdrick Tombola M.

53

Proprits des estimateurs


Le thorme de Gauss Markov avance, au respect des hypothses de base susmentionnes, que dans la
famille des estimateurs linaires non biaiss, ceux des MCO sont les meilleurs car ayant la variance la plus
faible.
. Estimateurs linaires
Pour dmontrer cette proprit, il suffit, dans lquation [4.9], de poser =

, il vient :

. Estimateurs sans biais


Rcrivons la relation [4.9] comme suit :

Ainsi,
[4.10]
En passant lesprance mathmatique de , il ressort clairement que
[4.11]

E(

est sans biais :

. Estimateurs convergents
Les variances des estimateurs OLS sont calcules comme suit.
Var( ) = E
Connaissant les relations [4.10] et [4.11], il vient :

Aprs une petite manipulation simple, on obtient :


[4.12]
Ou encore :

Il faut noter en passant que la matrice

est symtrique, elle est donc gale sa transpose.

54

Ass. Cdrick Tombola M.

Et lestimateur de la variance rsiduelle est donn par la formule suivante :

Ainsi obtient-on :
[4.13]
Lorsque le nombre dobservations tend vers linfini, lexpression [4.13] ci-dessus tend vers zro. Par
consquent, lestimateur
est convergent. Toutefois, la condition suffisante serait que les variables
exognes ne tendent pas devenir colinaires lorsque n tend vers l'infini. De plus, selon le thorme de
Gauss-Markov, Var( ) Var(
que les MCO]

) [avec

un estimateur linaire et non biais obtenu par une autre mthode

La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimes de

],

ncessaires pour mener les tests statistiques.


Consquence du thorme de Gauss-Markov
Soit le modle de rgression linaire multiple suivant :

o ut N(0,

). Lapplication de la mthode OLS { cette quation implique que

1re consquence : Sous lhypothse de normalit des erreurs, non seulement que lestimateur des MCO est
BLUE par le thorme de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de lingalit de Cramer-Rao, borne infrieure pour tous les
estimateurs.
2re consquence : Sous lhypothse de normalit, on obtient des tests exacts. Sachant que
, cela revient dire que lon connat les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits chantillons.

Ass. Cdrick Tombola M.

55

IV.3. R2 et R2 ajust
Connaissant lquation danalyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport :
[4.14]

Lorsque la rgression est faite sur donnes centres, le coefficient de dtermination se calcule avec la
formule :

[4.15]

Il faut noter que, comme pour le modle simple, le coefficient de dtermination reste un indicateur du
caractre explicatif de lquation de rgression { bien modliser Y t. Il mesure ainsi la part de variance de la
variable endogne attribuable sa rgression sur les X. Ceci est confirm par le fait que le coefficient de
dtermination nest rien dautre que le carr du coefficient de corrlation de Bravais-Pearson entre les
valeurs observes et les valeurs prdites de Y.

[4.16]

R2 =

Note importante: Le coefficient de corrlation linaire entre


et Y ( ) est appel coefficient de
corrlation multiple. Cela suggre d'ailleurs de construire le graphique nuage de points confrontant et Y
pour valuer la qualit de la rgression. Si le modle est parfait, les points seraient parfaitement aligns.
Bien videment [0 R2 1], plus R2 est proche de 1, plus le caractre explicatif du modle est important.
Le R2 est certes un indicateur de qualit, mais il prsente linconvnient dtre mcanique. Cest--dire que
sa valeur augmente avec laugmentation des variables explicatives, mmes non pertinentes { lexplication
du phnomne tudi.
A lextrme, si on augmente le nombre de variables explicatives, mmes impertinentes, tels que le nombre
de paramtres devienne gal au nombre dobservations, on aurait un R2=1. Ainsi, en tant que tel, le R2 nest
pas loutil appropri pour juger de lapport des variables supplmentaires lors de la comparaison de
plusieurs modles. Lorsquil augmente de manire mcanique, de lautre c t lon perd en degrs de
libert.
La mesure alternative, plus robuste { lajout des variables, qui corrige ce problme associ aux degrs de
libert est le R2 ajust de Henry Theil, appel aussi R2 corrig. Elle se dfinit comme suit :
[4.17]
Comme on le voit, il sagit l{ dun R2 corrig par les degrs de libert. Il peut dailleurs sexprimer en
fonction du R2 ; en manipulant la relation [4.17], on obtient :
[4.18]

Ass. Cdrick Tombola M.

56

Cependant, il faut faire attention de ne pas interprter le


en termes de part de variance explique. Son
seul avantage est quil permet de comparer plusieurs modles. De plus, le
peut prendre des valeurs
ngatives. Dans ce dernier cas, il faut lassimiler { zro.
Note importante :
Dans un modle linaire simple,
R2
Dans un modle linaire multiple,
< R2
Si n est grand, alors
R2
2
Le R et le
nont de sens que dans un modle qui comporte un terme constant.
Coefficient de corrlation partielle
Dans le chapitre sur la corrlation, nous avions mis en vidence quil tait possible que la corrlation entre
deux variables Xi et Xj ne tienne qu{ un artefact statistique ou un facteur confondant une troisime
variable Xk laquelle Xi et Xj seraient lies en ralit , appel aussi phnomne-source. Lon peut se
souvenir de lexemple du journaliste qui a dcouvert quil existait une trs forte corrlation entre le fait
davoir un nid de cigognes sur sa demeure et le fait davoir des enfants { Washington, oubliant que cela ne
tenait quau rang social des familles tudis, car la prsence dun nid de cigognes sur le toit signifierait
plut t que la famille qui y habite est aise et donc dispose, financirement, { avoir plus denfants.
Ainsi, dans la slection des variables pertinentes { lexplication dun phnomne, pour viter une telle
ventualit o la corrlation entre la variable endogne et lexogne ne tiendrait qu{ un artefact, on a
recours au coefficient de corrlation partielle.
Le coefficient de corrlation partielle mesure la liaison entre deux variables lorsque linfluence dune
troisime variable [des autres variables prsentes dans le modle] est retire.
Coefficient de corrlation partielle du premier ordre

Coefficient de corrlation partielle du deuxime ordre

Soit Y une variable endogne, et Xi, Xj et Xk des


exognes, le coefficient de corrlation partielle
mesure le lien entre Y et chaque X, linfluence juste
dune troisime variable exogne tant exclue.
Partant de lexemple choisi, on peut calculer ainsi six
coefficients de corrlation partielle du premier ordre :

En considrant lexemple ci-contre, le coefficient de


corrlation partielle du deuxime ordre sert quantifier
le lien entre Y et chaque X, linfluence de deux autres
tant exclue. Ainsi, partant du mme exemple, il est
possible de calculer trois coefficients de corrlation
partiels du deuxime ordre, soit :
;
;
Etapes de calcul

Dans ce cas, le coefficient de corrlation partielle du


premier ordre peut tre calcul partir des
coefficients de corrlation de Bravais-Pearson
comme suit :

Supposons que lon veule mesurer le lien entre Y et Xi,


linfluence de Xj et de Xk tant neutralise, soit
, on aura les tapes ci-aprs :
(i)
(ii)
(iii)

En suivant les indices, ltudiant peut aisment


gnraliser.

Calcul des rsidus e1 issus de la rgression de


Y sur Xj et Xk ;
Calcul des rsidus e2 issus de la rgression de
Xi sur Xj et Xk ;
correspondra au carr du
coefficient de corrlation linaire calcul
entre e1 et e2 :

Pour la comparaison des modles, on utilise aussi les critres dinformation [Aikak (AIC) ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la diffrence que ces critres sont minimiser dans le choix du meilleur modle.

Appels dans ce cas coefficients dordre zro.

Ass. Cdrick Tombola M.

57

La notion de corrlation partielle est importante dans la mesure o elle permet de juger de la pertinence
dintroduire une variable exogne dans le modle. Plus lev sera le coefficient de corrlation partielle
dune variable, plus importante sera sa contribution { lexplication globale du modle.

IV.4. Test de significativit des paramtres


Test de significativit individuelle
Comme pour le cas simple, le test de significativit individuelle, qui porte sur chaque paramtre, est men
en calculant les ratios de Student. Pour un test bilatral, les hypothses du test sont :

Le ratio de Student est calcul comme suit :


[4.19]

Sous H0, la formule [4.19] devient :


[4.20]

On dmontre, sous H0, que cette statistique suit une distribution de Student au seuil [5% sauf indication
contraire] et (n K) degrs de libert.
Critre de dcision : Si

> t/2 ; (n K), alors RH0, le paramtre

est statistiquement non nul, la variable lui

associe est par consquent non pertinente dans la prdiction de Y.


Comme cela a t vu au chapitre prcdent, lestimation par intervalle se fait en appliquant la formule ciaprs :
[4.21]

I=

t/2 ; (n 2)

Test de significativit conjointe ou globale


Le test de significativit globale sert tester la pertinence du modle. Il rpond la question de savoir si
lensemble des exognes apporte de linformation utile { la connaissance de la variable endogne. Ceci dit,
seuls les paramtres associs aux variables explicatives interviennent dans le test, la constante nest donc
prise en compte ici, car cest bien linfluence des exognes sur la variable explique que lon cherche {
tablir.
Dans la littrature anglophone, ce test est parfois considr comme un test de significativit du R 2, dans le
sens o il valuerait le pouvoir explicatif des exognes, pris dans leur globalit, sur lendogne.
Les hypothses du test sont :

Ass. Cdrick Tombola M.

58

Et la statistique calculer est :

[4.22]

F=

Sous H0, on dmontre que la statistique F suit une distribution de Fisher respectivement (K 1) et (n K)
degrs de libert.
Critre de dcision : Si F > F [(K 1) ; (n K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modle est bon.
Application de tests de significativit : Test des rendements dchelle
Soit le modle suivant :
[4.23]

Ln Qt = Ln A + 1Ln Lt + 2 Ln Kt + ut

o Qt est la production, Lt le travail, Kt le capital et 1 et 2 les lasticits de la production au travail et au


capital, respectivement.
La thorie macroconomique avance quil y a rendements { lchelle constants sil se vrifie que :
[4.24]

1 + 2 = 1.

Comment alors tester une telle hypothse ?


Pour tester cette restriction sur les paramtres, on suivra les tapes suivantes :

Estimer le modle [4.23] sans restriction sur les paramtres, dit modle non contraint ;

Calculer les variances de et , ainsi que leur covariance Cov( ,


Calculer ensuite le ratio de Student avec la formule :
[4.25]

Connaissant [4.24] et en sachant que Var


devient :
[4.26]

tcal =

= Var( ) + Var( ) + 2Cov( ,

), la formule [4.25]

tcal =

Tester enfin lhypothse des rendements dchelle constants contre celle des rendements
dchelle non constants, soit :

Critre de dcision : Si

> t/2 ; (n K)

RH0 selon laquelle il y a rendements { lchelle constants.

Ass. Cdrick Tombola M.

59

IV.5. Prvision dans le modle de rgression linaire multiple


Soit la rgression suivante de Yt sur le terme constant et sur les exognes Xj :

Si le vecteur des valeurs des exognes pour un horizon h est connu, soit R=
la prvision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :

Ce qui, en criture matricielle, scrit :

Sous forme compacte, on a :


[4.29]

Partant de la prvision ponctuelle, la prvision par intervalle est faite en appliquant la formule ci-aprs :
[4.30]
o

I=

t/2 ; (n K)

est lcart-type de lerreur de prvision *********. Il est donn par la formule :

[4.31]

*********

Yn+h

Lerreur de prvision capte lcart entre ce qui sera ralis et ce quon prvoit.

60

Ass. Cdrick Tombola M.


Synthse des formules sur la rgression linaire multiple
Formules

Indications

Modle danalyse :

donne une matrice K 1 des paramtres


estims du modle.
fixe un intervalle de confiance, avec un
risque , dans lequel le i inconnu de la
population serait compris.

Ponctuelle

Estimation

Ii =

Par intervalle

t/2 ; (n 2)

Modle estim :

sur sa diagonale principale, on lit les


variances estimes de ( ), ncessaires
pour mener les tests statistiques.
le coefficient de dtermination reste un
indicateur du caractre explicatif de
lquation de rgression { bien modliser
Yt.
, appel coefficient de corrlation
multiple, est le coefficient de corrlation
de Bravais-Pearson entre les valeurs
observes et les valeurs prdites de Y.

Matrice COVA
2

Donnes brutes

R2

R =
2

Donnes centres

tant connu

R2 =

il sagit l{ dun R2 corrig par les degrs de


libert.

R ajust de Theil
Test
de
significativit

individuelle
conjointe

t/2 ; (n K)

F=

[sous H0]

Si

F [(K 1) ; (n K)]

> t/2 ; (n K)

RH0

Si F > F [(K 1) ; (n K)]

RH0

Ponctuelle

Yn+h

Prvision

I=

t/2 ; (n K)

Par intervalle

Permet de deviner la valeur de Y


la priode h, les exognes de la
mme priode tant fixes.

Ass. Cdrick Tombola M.

61

IV.6. Utilisation des variables indicatrices


Synonyme : variables qualitatives, binaires, dummy, muettes, dichotomiques, auxiliaires, artificielles.

Une variable indicatrice est une variable spciale qui ne prend que deux valeurs, savoir :

1 pour indiquer que le phnomne (ou lvnement) a lieu ;


0 pour indiquer que le phnomne (ou lvnement) na pas lieu.

Elle est utilise en conomtrie pour saisir les facteurs qualitatifs comme la race, le sexe, la religion ou
mme un vnement tel quune guerre, une grve, un tsunami, etc. que lon dsire intgrer dans les
modles. Comme variable explicative, on la note gnralement par la lettre D, pour dire dummy.
Il est galement important de noter que les variables binaires peuvent intervenir dans le modle de deux
manires, soit comme endogne [modle de probabilit linaire, modles Logit, Probit, Tobit, Gombit] soit
comme exogne [modles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intressons quau cas o la
variable muette entre comme explicative dans le modle.
Aussi, lutilisation de ces variables dpend fortement du problme pos. Comme exognes, les variables
dummy sont utilises pour rpondre un triple objectif :

Corriger les carts aberrants (ou dviants) ;


Capter la prsence de la discrimination ;
Capter les variations saisonnires.

. Corriger les valeurs singulires (ou anormales)


Lorsque la variable endogne comporte, certaines dates, des valeurs atypiques cest--dire des valeurs
anormalement leves ou anormalement basses associes en gnral la survenance de chocs ou
dvnement rares, il y a lieu dincorporer une dummy dans le modle afin den tenir compte. La dmarche
consisterait simplement dtecter les valeurs anormales et les corriger, en mettant 1 ces dates l et 0
ailleurs, afin que les dviants ne perturbent pas lestimation statistique des autres variables.
Considrons le jeu de donnes ci-aprs, o Yt est lendogne et Xt lexogne. On veut estimer le modle :
Yt = 0 + 1Xt + ut
[A]
Date
Yt
Xt

11 fvrier
10
5

12 fvrier
12
7

13 fvrier
2
8

14 fvrier
15
9

15 fvrier
17
10

On observant lvolution de Yt, il y a un cart criant au 13 fvrier qui frappe notre attention. La consquence
directe serait que, sil faut rgresser Yt sur Xt, cette valeur aura tendance fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrs de faon avoir une moyenne.
On sen rend bien compte { travers le graphique nuage de points avec droite de rgression, y
correspondant, suivant.

Le terme anglo-saxon dummy est le plus utilis.

Ass. Cdrick Tombola M.

62

20
15
10
5
0
0

10

12

Et lestimation par OLS, donne la droite suivante :


= 1.6081 + 1.2297Xt
[0.1265]
[0.7728]
R2 =0.1660
Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a compltement perturb lestimation de
la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le
modle. On mettra 1 la date du 13 fvrier et 0 partout ailleurs. Le modle estimer devient :
Yt = 0 + 1Xt + 2Dt + ut
Date
Yt
Xt
Dt

11 fvrier
10
5
0

12 fvrier
12
7
0

[B]
13 fvrier
2
8
1

14 fvrier
15
9
0

15 fvrier
17
10
0

Lestimation par OLS du modle [B] donne prsent :


= 2.7288 + 1.3898Xt 11.8475Dt
[2.6032] [10.5862] [20.9805]
R2 =0.9962
Lincorporation dans le modle dune dummy a donc permis de corriger la valeur atypique.
Note importante :
La correction effectue nest valable que si le coefficient associ la variable dummy est
statistiquement significatif.

Aprs estimation, le signe affect { la variable binaire est proportionnelle { lanomalie constate
dans les donnes. Sil sagit dune observation anormalement basse, comme cest le cas dans
lexemple ci-haut, le signe affect la dummy sera , ce qui indique que lcart criant avait
tendance ramener la droite de rgression vers le bas. En revanche, sil est plut t question dune
observation anormalement leve, le signe affect la dummy sera +, ce qui indique que le dviant
avait tendance tirer la droite de rgression vers le haut.

Attention ne pas saisir les carts anormalement levs et anormalement bas par une mme une
variable muette. Lorsque la srie prsente la fois les deux types dcarts, il convient de les capter
par deux variables auxiliaires diffrentes, lune pour les observations exceptionnellement leves
et lautre pour celles exceptionnellement basses.

Ass. Cdrick Tombola M.

63

. Capter la prsence de la discrimination


Lexplication dun phnomne peut parfois ncessiter la prsence des variables qualitatives. Supposons
que lon souhaite expliquer, pour dix tudiants de premire licence en Economie chantillonns, le
phnomne " cote obtenue en macroconomie CMi" ; tout naturellement les variables comme prsence au
cours PCi, nombre dheures dtude consacres la macroconomie HE isavrent pertinentes. Mais il est
tout fait aussi possible que des variables comme la religion de ltudiant REi, ou sa tribu TEi, soient
dterminantes dans lexplication du phnomne tudi. Dans ce cas, lutilisation dune variable binaire
permet de segmenter les individus en deux groupes et de dterminer si le critre de segmentation est
rellement discriminant.
Dans lexemple de tout { lheure sur la cote obtenue en macroconomie, si lon assume que lappartenance
ou non la religion catholique est dterminante dans la russite, ce qui revient dire que la religion est un
facteur de discrimination, le modle estimer sera :
CMi = 0 + 1 PCi + 2HEi + 3REi

o REi =

Puis estimer, comme vu prcdemment, en appliquant les MCO. Aprs estimation, si 3 est statistiquement
significatif, on en conclurait que la religion (catholique) a jou sur la cotation en macroconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroconomie. A loppos, si 3 est
statistiquement non significatif, on en conclurait que la religion (catholique) na pas jou sur la russite en
macroconomie.
Note importante :
Dans le cas de variables dummy plusieurs modalits, par exemple ltat civil (clibataire, mari,
divorc, autres), il est convenable de coder alors autant de variables indicatrices quil y a de
modalits moins une. Ainsi, pour ltat civil, on dfinira trois variables binaires : clibataire (=1
si lindividu est clibataire, 0 sinon), mari (= 1 si lindividu est mari, 0 sinon), divorc (= 1 si
lindividu est divorc, 0 sinon), la modalit autres tant implicitement contenue dans le terme
constant [et ne serait donc spcifie part que dans un modle sans terme constant].

La codification dpend du modlisateur et doit tre prise en compte dans linterprtation des
rsultats. A titre exemplatif, si lon considre la variable qualitative sexe, le modlisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
linterprtation.

. Capter les variations saisonnires


Les variables indicatrices sont aussi utilises pour prendre en compte les mouvements saisonniers qui
caractrisent certaines variables comme les dpenses de publicit, qui sont gnralement plus importantes
en certaines priodes de lanne quen dautres.
Supposons que lon sintresse { la relation entre le chiffre daffaires (Ch t) et les dpenses de publicit
(Dpubt). On peut crire :

Lune delles tant implicitement contenue dans le terme constant.

Ass. Cdrick Tombola M.


Cht = 0 + 1Dpubt + ut

64

[i]

En utilisant les donnes trimestrielles, il ne serait pas correct destimer directement le modle [i], parce
quon naurait pas tenu compte de leffet saisonnier, les dpenses de publicit ne sont pas les mmes tous
les trois mois [trimestre].
On peut capter leffet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy quil y a de trimestres, soit quatre dummy. Sachant quon compte quatre
trimestres par anne, lintroduction des variables dummy se fera comme suit :

2
0
0
5
2
0
0
6

Trimestre
1r trimestre
2me trimestre
3me trimestre
4me trimestre
1r trimestre
2me trimestre
3me trimestre
4me trimestre

D1t
1
0
0
0
1
0
0
0

D2t
0
1
0
0
0
1
0
0

D3t
0
0
1
0
0
0
1
0

D4t
0
0
0
1
0
0
0
1

1
1
1
1
1
1
1
1

Et le modle [i] devient :


Cht = 0 + 1Dpubt + 2D1t + 3D2t + 4D3t + ut

[ii]

ou encore :
Cht = 1Dpubt + 2D1t + 3D2t + 4D3t + 5D4t + ut

[iii]

Si le modle contient un terme constant, celui-ci joue doffice le r le de lune de quatre variables dummy.
Dans [ii] par exemple, 0 joue le rle de D4t [on a le choix pour la variable binaire carter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.
Une fois cette gymnastique termine, on peut alors, sans difficult normalement, appliquer les MCO soit
sur le modle [ii], soit sur le modle [iii].

Ass. Cdrick Tombola M.

65

ANNEXES DU CHAPITRE IV
ANNEXE 1 : Quelques rappels de calcul matriciel
Le calcul matriciel a t introduit en Economtrie par Alexander Craig Aitken.

1.

Oprations matricielles

Addition et soustraction
Soient deux matrices carres A et B de format 2. La somme ou la soustraction de ces deux matrices
seffectue comme suit :

B=

L'addition et la soustraction des matrices ne sont donc dfinies que pour des matrices de mme format ou de
mme ordre.
Proprits importantes de laddition et la soustraction des matrices
(i)
(ii)

A
A

B=B A
(B C) = (A

B)

Multiplication par un scalaire


Soient un scalaire k (un nombre rel) et la matrice carre A ci-dessus. La multiplication de A par le scalaire k
seffectue de la sorte :

kA =k

La multiplication par un scalaire est donc possible quel que soit lordre de la matrice A.
Proprits importantes de la multiplication par un scalaire
(i)
(ii)

kA = Ak
k(A B) = kA

kB

Produit matriciel
Soient les deux matrices carres A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la premire matrice est gal au nombre de lignes
de la deuxime matrice [principe du produit matriciel]. Le produit matriciel seffectue en faisant la somme
algbrique des produits des lments de chaque ligne de la premire matrice par les lments
correspondants de chaque colonne de la deuxime matrice.

Une matrice carre est une matrice dont le nombre de lignes est gal au nombre de colonnes. On dit matrice
carre de format n ou dordre n m.

Ass. Cdrick Tombola M.

66

Pour les matrices carres A et B ci-haut, on obtient :

AB =
2

Proprits importantes du produit matriciel


Soient trois matrices conformables A, B et C, on a les proprits essentielles suivantes :
(i)
(ii)
(iii)

A(B + C) = AB + AC
A(BC) = (AB)C
AB BA en gnral

Transpose dune matrice


La transpose dune matrice A de format m
en permutant les lignes et les colonnes de A.

n, note AT ou A, est une matrice de format n

m obtenue

AT =

Soit A =

Proprits importantes de la transposition des matrices


Soient trois matrices conformables A, B et C, on a :
(i)
(ii)
(iii)
(iv)

(A + B + C)T = AT + BT + CT
(ABC)T = CTBTAT
(AT)T = A
(kA)T = kAT

Rang dune matrice


Soit une matrice A dordre m n. Le rang de la matrice A, not r (A), est le nombre de ses vecteurs lignes [ou
ses vecteurs colonnes] linairement indpendants, dit autrement, cest le nombre de ses lignes (ou ses
colonnes) non entirement nulles, aprs chelonnement de la matrice.
Si le rang dune matrice A donne correspond au minimum entre le nombre de ses lignes et de ses
colonnes, on dira que A est de rang maximum.
Une matrice carre A dordre n est dite non singulire si son rang est maximum, soit [r (A) = n].

Ass. Cdrick Tombola M.

67

2. Matrices carres
Matrice diagonale

Matrice scalaire

Matrice unit ou identit

est une matrice carre dont un au


moins des lments situs sur sa
diagonale principale est non nul, tous
les autres lments tant nuls.

est une matrice diagonale dont


tous les lments, non nuls, sur sa
diagonale principale sont gaux.

note I, est une matrice scalaire dont


les lments sur la diagonale
principale sont gaux 1.

Exemple :

Exemple :

Exemple :

B=

I=

A=

Matrice symtrique

Matrice idempotente

Trace dune matrice carre

Soit une matrice carre A. On dit que A


est une matrice symtrique si AT = A.

Soit une matrice carre A. on dit


que A est une matrice idempotente
si AA = A.

La trace dune matrice carre A,


note tr (A), se dfinit comme tant
la somme algbrique des lments
de sa diagonale principale.

Exemples :

La matrice unit I est forcment


symtrique. On vrifie donc que
IT = I;
La
matrice
(X'X),
dans
lestimation
des
,
est
symtrique, soit (X'X)' =(XTX).

Exemple :

M = [I X(X'X)1X']

Soient deux matrices A et B, dont les


dimensions respectives sont de
(m n) et de (n m). Par consquent,
AB et BA sont deux matrices carres
et :
tr (AB) = tr (BA)
Pour trois matrices A, B et C, si le
produit donne des matrices carres,
on a :
tr (ABC) = tr (CAB) = tr (BCA)

Proprits importantes de la matrice unit


(i)
(ii)
(iii)

II = I
InAn = An
tr (In) = n

Dterminant dune matrice carre


Dordre 2
Soit la matrice carre A, dordre 2, son dterminant not

est calcul comme suit :

Ass. Cdrick Tombola M.

68

Dordre 3
Le dterminant dune matrice carre A dordre 3 est calcul en appliquant la rgle de Sarrus********** comme
suit :

Dordre n quelconque
Le dterminant dune matrice A dordre n est donn par la somme algbrique des produits obtenus en
multipliant les lments dune ligne (ou dune colonne) de la matrice A par leurs cofacteurs correspondants,
nots Cij.
La matrice des cofacteurs, quant elle, est trouve en pr multipliant la matrice des mineurs, note Mij,
par (1)i+j, soit :
Cij = (1)i+jMij
La mthode des cofacteurs, dite aussi mthode dexpansion de LAPLACE , permet de calculer un
dterminant dordre n { laide des mineurs [dterminants dordre (n 1)]. On a toujours intrt
dvelopper un dterminant des lignes ou des colonnes o apparaissent beaucoup de zros.
Note : Le mineur mij de la matrice A est le dterminant calcul en supprimant la ligne i et la colonne j de A.
Proprits importantes des dterminants
(i)
(ii)
(iii)
(iv)

Si une ou plusieurs lignes ou colonnes dune matrice sont linairement dpendantes, alors le
dterminant de cette matrice est nul. On dit quune telle matrice est singulire.
Si une matrice carre A est de rang maximum, alors son dterminant est diffrent de zro.

Inverse dune matrice carre


Soit A une matrice carre et B une autre matrice carre du mme ordre que A. On dit que B est l'inverse de A si
AB = BA = I.
1

L'inverse de A, not A , n'existe que si A est une matrice carre de rang maximum. Cet inverse est unique.

**********

Du nom du mathmaticien franais Pierre Frdric Sarrus (1798 1861).


Du nom du mathmaticien, astronome et physicien franais Pierre Simon de LAPLACE (1749 1827).

Ass. Cdrick Tombola M.

69

Il existe, dans la littrature, plusieurs mthodes de calcul de linverse dune matrice carre. Dans ce papier, nous
nen prsentons que deux.
Mthode classique (ou mthode de ladjointe)

Mthode itrative (ou gaussienne)

Par la mthode de ladjointe, linverse de la matrice B, Soit la matrice A, dordre n, dont on veut trouver
note B1, se calcule de la sorte :
linverse. La mthode itrative consiste { mettre c te
cte la matrice A et la matrice unit I de mme
1
ordre, puis { chelonner A jusqu{ la rendre unit. A1
B =
sera ce que serait devenue la matrice unit { lissue de
o est la matrice adjointe, et nest rien dautre que la
lchelonnement, soit :
transpose de la matrice des cofacteurs Cij, soit :

B1 =

Proprits importantes de linverse dune matrice carre


(i)
(ii)
(iii)

B B1 = I
(B1)1 = B
(BT)1 = (B1)T

(B1)TBT = I

ANNEXE 2 : La fonction DROITEREG dExcel


La fonction DROITEREG dExcel permet dobtenir presque tous les rsultats, en un clic, mis en vidence
dans ce chapitre, et au chapitre prcdent. Il suffit, pour ce faire, de slectionner une plage en
consquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramtres
estimer dans le modle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les
exognes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.
Soit le modle Yt = 0 + 1X1t + 2X2t + 3X3t + ut, la figure ci-dessous montre comment procder sur Excel.

En appuyant simultanment sur les touches CTRL + SHIFT + ENTER, on obtient :

Ass. Cdrick Tombola M.

70

ANNEXE 3 : La rgression linaire avec le logiciel Eviews


Sur le logiciel conomtrique Eviews, aprs cration de la feuille de travail et saisie des donnes, aller dans
Quick Estimate Equation, puis entrer les variables, spares par des espaces, dans lordre apparaissant
dans le modle estimer, en notant le terme constant par la lettre C, choisir ensuite la mthode
destimation pour notre cas LS ou Least squares et valider.
En considrant le modle de tout { lheure, on a les tapes suivantes :

En validant, on a les rsultats suivants :


Dependent Variable: Y
Method: Least Squares
Sample: 1 8
Included observations: 8
Variable
C
X1
X2
X3
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)

Coefficient

Std. Error

t-Statistic

Prob.

-247.3274
1.133525
2.944909
7.146491

122.8357
0.520299
3.361460
2.286172

-2.013481
2.178604
0.876080
3.125963

0.1143
0.0949
0.4304
0.0353

0.974926
0.956120
8.789365
309.0117
-25.96726
51.84210
0.001169

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat

264.3750
41.95895
7.491815
7.531536
7.223914
1.160052

Ass. Cdrick Tombola M.

71

Le mme rsultat peut tre obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.
Du tableau des rsultats ci-dessus, appels parfois output de lestimation, il ressort les informations
importantes suivantes :

Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramtre estim, son cart type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estim, la probabilit de commettre lerreur de
premire espce. Si cette probabilit est faible (< 0.05, de manire gnrale) RH0, le paramtre
concern est donc statistiquement significatif (non nul).

Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(Fstatistic) correspondent respectivement au R2, au R2 ajust, au , la SCR, la statistique de
Fisher et la probabilit critique associe la statistique de Fisher.

Mean dependent var et S.D. dependent var reprsentent respectivement la moyenne et lcart
type de la variable dpendante.

Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critres dinformation
intervenant dans le choix du modle optimal. Le meilleur modle tant celui qui minimise ces
critres.

A. Aprs estimation, la srie prdite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la srie) puis valider.
B. Aprs estimation, la srie des rsidus est gnre en saisissant la commande GENR (nom)=resid

Ass. Cdrick Tombola M.

72

Exercices sur le modle de rgression linaire multiple


Exercice 1
On examine lvolution dune variable Yt en fonction de deux exognes X1t et X2t. On dispose de n
observations de ces variables. On note X =
o 1 est le vecteur constant et X1 et X2 sont les
vecteurs des variables explicatives.
1. On a obtenu les rsultats suivants :

(a) Donner les valeurs manquantes.


(b) Que vaut n ?
2. La rgression de Y sur la constante et les deux exognes donne :
Yt = - 1.61 + 0.61X1t + 0.46X2t ; SCR = 0.3 ;

=73.48 et = 1.6

(a) Calculer la somme des carrs expliqus (SCE), la somme des carrs totale (SCT), le R2 et le R2 ajust
de Theil.
(b) Dduire la matrice COVA, et tester la significativit individuelle de chaque paramtre ainsi que leur
significativit conjointe.

Exercice 2
Afin de dterminer les facteurs explicatifs de la russite de la licence en sciences conomiques, on spcifie
le modle suivant :
NLi = 0 + 1NDi + 2DSi + ut
o :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisime graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)
Lestimation { partir dun chantillon de 60 tudiants conduit aux rsultats suivants :
= 8.5 + 0.3NDi 1.2DSi
[4.5] [7.1]
[2.3]
n=60
R2=0.72
[.] = t de Student
Travail demand : le sexe a-t-il une influence sur la note obtenue en licence de sciences conomiques ?
Solution de lexercice 2
La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait dtre homme ou femme est bel et bien un facteur discriminant de la russite de la licence en sciences
conomiques.

73

Ass. Cdrick Tombola M.

Il est noter que le signe ngatif affect DS indique quil est pnalisant dtre un homme (DS = 1) et quen
moyenne, sur lchantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
infrieure de 1.2 point celle des femmes, soit 7.3.

Exercice 3
Soit le modle :
Yi = 0 + 1Xi + 2Di1 + 2Di2 + ui
o Yi est le salaire peru par lindividu i ; Xi le nombre dannes dexprience ; Di1 et Di2 deux variables
dummy.
On dispose du tableau ci-dessous :
Ind.
Yi
Xi

1
350
2

2
150
1

3
305
2

4
290
2

5
310
2

6
270
2

7
340
5

8
400
3

9
430
5

10
410
4

11
400
3

12
290
2

Les individus 3, 5, 8, 10, 15, 12 sont des trangers (trangres) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et trangers).

Di1 =

et

Di2 =

Construisez les chroniques Di1 et Di2.

Exercice 4
Soit le modle :
Yt = 0 + 1X1t + 2X2t + ut
On dispose des donnes du tableau ci-dessous :
Yt
10
12
16
18
20

X1t
4
6
5
8
7

X2t
7
4
8
6
9

Travail faire :
(a) Trouver les valeurs du vecteur .
(b) Calculer le coefficient de dtermination R2.
(c) Mener les tests de significativit individuelle sur chaque
paramtre.

Exercice 5
Soit le tableau suivant :
Anne

Yt

X1t

X2t

X3t

1989

220

57

51

34

1990

215

43

53

36

1991

250

63

54

39

1992

245

65

52

38

1993

249

68

53

37

1994

301

69

56

42

Ass. Cdrick Tombola M.

74

TD :
-

Si on considre le modle suivant : Yt = 0 + 1X1t + 2X2t + 3X3t + ut, estimer les paramtres 0, 1, 2,
3, et tester leur significativit individuelle et la significativit globale du modle.
Calculer le R2. Quelle critique peut-on formuler lgard de cet indicateur ?
Calculer le 2
Trouver lintervalle de prvision pour 1997 sachant que pour cette dernire anne X1t sera gal
78, X2t sera gal 54 et X3t atteindra 48.

Exercice 6
Soit le modle Yt = 0 + 1X1t + 2X2t + t
o Yt est la quantit offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accorde de
manire journalire et t le terme derreur.
Connaissant les donnes du tableau ci-dessous, il est demand :
- destimer les paramtres 0, 1 et 2.
- de calculer le R2 et le R2 ajust de Theil.
- de montrer que le R2 nest autre que le r de Bravais-Pearson entre Yt et
- de vrifier lquation danalyse de la variance.
- de driver la matrice COVA.
Date
2 janvier 2012
3 janvier 2012
4 janvier 2012
5 janvier 2012
6 janvier 2012

Yt
10
12
16
18
20

X1t
4
6
5
8
7

X2t
7
4
8
6
9

75

Ass. Cdrick Tombola M.

.V.

MODELES DE REGRESSION NON LINEAIRES


Comme vu jusquici, lapplication de la mthode des moindres carrs ordinaires exige que le modle soit
linaire ou linarisable en X. Cependant, il est frquent de rencontrer en conomie des modles non
linaires dans leur spcification, comme cest le cas des fonctions de production de type Cobb Douglas et
CES [Constant Elasticity of Substitution].
Les modles non linaires sont gnralement regroups en deux familles, savoir :

Modles non linaires mais linarisables ;


Modles non linaires et non linarisables.

Pour la premire famille de ces modles, le plus souvent, une transformation logarithmique suffit les
rendre linaires, ce qui, du reste, valide leur estimation par les MCO. Et cest prcisment sur ce type de
modles que porte ce chapitre. Quant { la deuxime famille de ces modles, il convient dappliquer les
mthodes destimation non linaire, que nous nabordons pas directement ici.
A titre davertissement, le prsent chapitre na pour objet la prsentation de nouvelles mthodes
destimation. Il prsente plut t les artifices de calcul entendus comme pralables ncessaires
lestimation, par les MCO, de la premire famille de modles non linaires.

V.1. Linarisation des modles non linaires


A. Le modle double log ou log log
Forme : Yt =A

[a]

En appliquant la transformation logarithmique, il


vient :
LnYt = LnA + LnXt + ut
[b]

A prsent, en posant :
= LnYt ; 0 = LnA; 1 = et

=LnXt,

on retrouve ainsi le modle linaire bien connu,


quon peut crire de la sorte :
= 0 + 1

+ ut

Exemple : la forme Cobb Douglas

[c]
Q =AKL.

Avantage : une lecture directe des lasticits.

Forme : Yt =

[m]

La transformation logarithmique de [m] donne :


LnYt = 0 + 1Xt + ut

[n]

Exemple :
La formule de lintrt compos Yt = Y0(1 + r)t [o]
o Y0 est une constante, (1 + r) un paramtre et t le temps
(la variable exogne).

o =

B. Le modle log lin (ou semi-log)

La transformation logarithmique de [o] donne :

=
+
= LnYt,

+ ut
=LnY0,

=Ln(1 + r),

[p]
= t.

Avantage : Le modle [o] permet le calcul du taux de


croissance dune part, et de la tendance (croissante ou
dcroissante) caractrisant lvolution de Yt selon le signe
de (positif ou ngatif) dautre part.

La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a t propose en
1928 ; alors que la CES, appele aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a t introduite en 1961.

76

Ass. Cdrick Tombola M.

C. Les modles du trend linaire

D. Le modle lin log (ou semi-log)

Forme : = 0 + 1t+ ut
= LnYt et t =tendance ou trend

Forme :

[i]

En appliquant la transformation logarithmique, il vient :


Avantage : Le modle de trend linaire, appel
galement modle de tendance, peut tre utilis en
lieu et place du modle log lin afin danalyser le
comportement (croissant ou dcroissant) du trend
linaire affectant Yt. En effet, la tendance sera
croissante si le coefficient associ la variable t est
positif et dcroissante dans le cas contraire.

Yt = 0 + 1LnXt+ ut
[ii]
o 1 est une semi-lasticit, soit :

1 =

[iii]

Llasticit peut tre retrouve, en divisant la relation [iii]


par Yt. Et cela est beaucoup plus commode en prenant les
moyennes comme suit :

[iv]

Si lon pose
=LnXt, la relation [ii] est ramene la
formulation standard antrieure comme suit :
Yt = 0 +

+ ut

[v]

Avantage :
Ce modle permet lestimation des modles
dEngle : La dpense totale consacre la
nourriture tend crotre selon une progression
arithmtique lorsque la dpense totale augmente
en progression gomtrique.
Cette forme peut servir galement au traitement
de lhtroscdasticit dont il sera question plus
loin.

E. Les modles rciproques


Forme 1 : Yt = 0 + 1

+ ut

F. Le modle log hyperbole (ou log inverse)


[j]

La forme linaire standard est retrouve en posant


simplement =
, ainsi obtient-on :
Yt = 0 + 1

+ ut

[k]

Cette spcification est notamment utilise pour


estimer la courbe de Phillips, qui est la relation
entre linflation et le taux de chmage.
Forme 2 :

= 0 + 1Xt + ut

Forme : Yt =
En appliquant la transformation logarithmique sur cette
forme, on obtient :
LnYt = 0 + 1

Cette forme sapparente beaucoup { la forme rciproque


sauf que la variable dpendante est exprime sous forme
logarithmique. Quand Xt augmente, LnYt diminue.

[l]
En posant

En posant

= , il vient :
= 0 + 1Xt+ ut

+ ut

et

=LnYt, on obtient :
= 0 + 1

[m]

+ ut

Le modle log-hyperbole est apte reprsenter une


fonction de production de court terme.

G. Le modle polynomial
Forme : Yt =
Une manipulation simple permet dcrire ce modle sous la forme :

Ass. Cdrick Tombola M.

77

Yt =
o

=Xt ;

;;

Le modle polynomial trouve des applications dans les cas suivants :


Lestimation dune tendance pour une chronique accusant, par exemple, deux points de retournement :
Yt = 0 + 1t2 + 2t3 + ut
o t reprsente le temps.

Lestimation dune fonction de cot total :


CTt = 0 + 1Qt + 2 + ut
o CT est le cot total et Q la quantit produite.

V.2. Modles de cycle de vie du produit


Les modles de cycle de vie dun produit, appels parfois modles de diffusion, ont pour objet de
dterminer lvolution probable des ventes dun produit connaissant le seuil de saturation, puisquil est
vrifi que les ventes voluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu{
maturit (seuil de saturation) qui correspond { un point dinflexion { partir duquel le rythme de croissance
des ventes diminue.

A. Le modle logistique

B. Le modle de Gompertz

Le modle logistique est aussi connu sous le nom de


modle (ou courbe) de Verhulst, du nom de son
auteur Pierre-Franois Verhulst, qui le proposa en
1838.

Le modle de Gompertz, du nom du mathmaticien


anglais Benjamin Gompertz, a t introduit en 1825.

Forme :
[e]
o Ymax reprsente le seuil de saturation et r la
vitesse de diffusion.
Une manipulation triviale permet dcrire :

Forme : Yt =
o

[x]

est le seuil de saturation et r la vitesse de


diffusion.

Deux
transformations
logarithmiques
sont
ncessaires pour linariser ce type de modles.
Dans un premier temps, la transformation
logarithmique du modle [x] donne :

Aprs
application
de
logarithmique, il vient :

la

transformation

LnYt = brt + a
Aprs manipulation et en log-linarisant, il vient :

= 0 + 1t+ ut

[f]

= 0 + 1t+ ut
[y]
o
; 0 =Lnb et 1=Lnr
Note : Lestimation par OLS de ces deux modles nest possible que si lon ne connat, ou plut t que lon
postule la valeur du seuil de saturation.
o

; 0 =Lnb et 1=Lnr

78

Ass. Cdrick Tombola M.

ANNEXE DU CHAPITRE V
La commande NLS dEviews
En effet, plusieurs modles non linaires se prtent facilement, comme vu prcdemment, la linarisation,
ce qui rend beaucoup plus aise leur estimation par la mthode des MCO. Mais lorsque cette gymnastique
de linarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grce { la commande NLS dEviews qui donne lestimation fournie par la mthode des moindres non
linaires , directement estimer de tels modles sans avoir besoin de les rendre linaires.
Exemple
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour
Q
K
L

1
25
12
3

2
28
13
5

3
32
10
9

4
35
15
8

5
39
22
12

6
37
17
13

7
44
21
10

8
40
23
11

9
38
25
14

10
45
20
19

Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les rsultats suivants :
Dependent Variable: Q
Method: Least Squares
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)

C(1)
C(2)
C(3)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood

Coefficient

Std. Error

t-Statistic

Prob.

12.45037
0.190189
0.232165

3.586039
0.125849
0.078957

3.471900
1.511251
2.940398

0.0104
0.1745
0.0217

0.823231
0.772726
3.081806
66.48269
-23.66117

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion
Durbin-Watson stat

36.30000
6.464433
5.332234
5.423009
2.381746

o les coefficient c(2) et c(3) donnent directement les lasticits du produit au capital et au travail,
respectivement.

Ass. Cdrick Tombola M.

79

Exercices sur les modles de rgression non linaires


Exercice 1
Soit le modle log-linaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-aprs qui montre
lvolution des ventes dune entreprise au cours de 15 mois, on demande dajuster cette fonction et de
trouver Y0 et r.
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Yt
10
15
20
18
20
22
24
21
27
26
33
29
34
38
37
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Interprter les rsultats.

Exercice 2
On dispose des informations suivantes sur les ventes des syllabus dconomtrie :
Anne
Ventes

2000
24

2001
36

2002
45

2003
49

2004
54

2005
63

2006
78

2007
79

2008
83

2009
99

On Se propose dajuster, par OLS, sur ces donnes une fonction du type :
Yt =
a) Effectuer cet ajustement en supposant que la valeur du coefficient 0 = 3 ;
b) Donner la valeur de r ;
c) Calculer le coefficient de dtermination R2 ;

Exercice 3
Mmes donnes et mmes questions qu{ lexercice 2, en ajustant le modle suivant :

On prendra Ymax = 10.

Exercice 4
En considrant les donnes du tableau ci-dessous qui renseigne sur les quantits produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande destimer le modle ci-aprs :
Q=
Jour
Q
K
L
-

1
25
12
3

2
28
13
5

3
32
10
9

4
35
15
8

5
39
22
12

6
37
17
13

Calculer le R2 et le 2.
Mener le test des rendements dchelle. Les rendements { lchelle sont-ils constants ?

80

Ass. Cdrick Tombola M.

.VI.

VIOLATION DES HYPOTHESES DE BASE


En prsentant la mthode des moindres carrs ordinaires, nous avions mis un faisceau dhypothses de
base, sous respect desquelles cette mthode fournissait les meilleurs estimateurs linaires,
convergents et sans biais, et que le thorme de Gauss-Markov tait vrifi. Cependant, dans la pratique, il
est possible que lune ou lautre de ces hypothses fondamentales soit relche.
Ce chapitre prsente donc la fois les tests de vrification et les stratgies adopter en cas de violation
ventuelle de lune ou lautre hypothse.

VI.1. Autocorrlation des erreurs


A. Problme
Il y a autocorrlation des erreurs lorsque lhypothse
est viole. La consquence directe
est que les estimateurs des MCO, bien quils gardent encore leur caractre non biais, ne sont plus
efficients, puisque nayant plus une variance minimale. Formellement, on a :
En absence dautocorrlation
Y = X + U
E(U) = 0
E(UU) =

En prsence dautocorrlation
Y = X + U
E(U) = 0
E(UU) =
Par consquent
les t de Student et F de Fisher ne sont plus
utilisables.

Il faut noter aussi que lautocorrlation des erreurs est un phnomne que lon ne retrouve quen travaillant
sur sries temporelles. En principe, le problme ne se pose pas sur cross sections, sauf le cas rare de
corrlation spatiale des rsidus, qui ne nous intresse pas directement ici.
B. Tests de dtection
On recourt gnralement { deux tests pour dtecter lventuelle autocorrlation des erreurs : le test de
Durbin et Watson et le LM Test de Breush Godfrey.
Le test de Durbin et Watson
Soit le modle linaire simple ci-aprs :
[6.1]

Yt = 0 + 1Xt + ut

Le test trs populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui lon propos en 1951, permet de dtecter une autocorrlation dordre 1, AR(1), selon la forme :
[6.2]
ut = ut1 + vt
o vt est un bruit blanc*********** et
(condition de convergence)

Erreurs homoscdastiques, non autocorrles et normalement distribues. De plus la matrice (XX) doit tre
non singulire, ce qui correspond { assumer labsence de multicolinarit.
***********
Voir annexe 3.

Ass. Cdrick Tombola M.

81

On fait donc lhypothse, pour des raisons de simplification, que lerreur nest lie qu{ son pass immdiat.
Et lestimateur de , bas sur les rsidus et issus de la relation [6.2], est donn par :
[6.3]
Or, si n

+,

, ce qui permet dcrire la relation [6.3] de la sorte :


[6.4]
o est le coefficient de corrlation linaire de Bravais Pearson.

Par consquent, varie dans lintervalle [ 1, + 1].


Les hypothses pour mener le test DW sont :

La statistique associe ce test est :


[6.5]

DW = d =

Pour comprendre pourquoi d est une statistique pertinente pour tester lautocorrlation, on rcrit d
comme suit :
d=
En clatant cette somme en ses composantes, on a :
[6.6]

d=

Connaissant la relation [6.3], et en sachant que pour grands chantillons,


[6.7]

DW=d

, [6.5] devient :

Il ressort donc de [6.6] que DW varie de 0 4 :


Valeur de
=1
=0
= 1

Valeur consquente de DW
DW =0
DW=2
DW = 4

Implications
Autocorrlation positive
Absence dautocorrlation
Autocorrlation ngative

Connaissant la taille de lchantillon n, le nombre des variables explicatives k et le risque (5% sauf
indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de
mener le test en situant la statistique calcule DW dans lune des zones du schma ci-aprs :

Ass. Cdrick Tombola M.

4 dU

4 dL

Doute

Zone I
Autocorrlation
positive

dU

Doute

dL

Zone II
Absence dautocorrlation

82

Zone III
Autocorrlation
positive

On dira donc quil y a autocorrlation des erreurs (ou prsomption dautocorrlation zone de doute ou
zone dindtermination) si la statistique DW calcule tombe soit dans la zone I, dans lune de deux zones de
doute ou dans la zone III. La zone II tant la seule zone o lon conclurait { lindpendance des erreurs.
Note importante :

La statistique DW ne sinterprte pas lorsque le modle est spcifi en coupe instantane ;


Pour mener le test DW, il est ncessaire que le modle comporte un terme constant. Pour les
modles sans terme constant, il existe des tables statistiques appropries ;
Dans le cas o la rgression comporte, parmi les variables explicatives, la variable dpendante
retarde Yt1 et que les rsidus sont autocorrls dordre 1, la statistique DW est alors biaise vers 2.
Elle ne peut donc tre utilise directement pour tester lautocorrlation. La statistique h
dveloppe par Durbin (1970) doit alors tre utilise.

Le LM Test de Breusch Godfrey [BG]


Comme cela vient dtre expliqu, le test DW ne permet de tester quune autocorrlation dordre 1, soit
AR(1). Or, il est tout fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent tre :
AR(2) :

ut = 1ut1 + 2ut2 + vt

AR(3) :

ut = 1ut1 + 2ut2 + 3ut3 + vt

AR(P) :

ut = 1ut1 + 2ut2 + + putp + vt

A cet effet, Trevor Breusch et Leslie Godfrey ont, sparment, propos, respectivement en 1979 et 1978, un
test qui porte leurs noms, appel aussi test du multiplicateur de Lagrange LM beaucoup plus complet
que le test DW en ce quil permet de tester une autocorrlation des erreurs dordre suprieur { 1, et qui
reste valide en prsence de la variable dpendante dcale en tant que variable explicative.
Soit le modle linaire simple de lquation [6.1] :
Yt = 0 + 1Xt + ut
o ut est prsent AR(p), p tant dterminer.
Comme le test DW, le test BG teste lH0 dabsence dautocorrlation contre H1 de prsence
dautocorrlation, et se droule en trois tapes suivantes :
(1). Estimer par les MCO le modle [6.8] et tirer les rsidus e t de cette estimation ;
(2). Estimer par les MCO lquation intermdiaire suivante :
[6.8]

et = 0 + 1Xt + 1et1 + 2et2 + + petp + ut

Puis y tirer la valeur du R2.

Ass. Cdrick Tombola M.

83

(3). Calculer la statistique du test, sachant que ce test peut tre men deux niveaux :

Soit effectuer un test de Fisher classique de nullit des i, comme suit :

Et la statistique du test est dans ce cas :

F
o K est le nombre des paramtres du modle [6.8]
Critre de dcision : Si F > F [(K 1) ; (n K)]

RH0, il y a autocorrlation.

Soit recourir la statistique LM qui suit une distribution du


introduits dans le modle [6.8]. On a :
LM = n R

Critre de dcision : Si LM >

(p)

(p). P tant le nombre de retards

RH0, il y a autocorrlation.

C. Correction dune autocorrlation


Lorsque le test conclut { lvidence dune autocorrlation, la correction se fait en appliquant la mthode
des Moindres Carrs Gnraliss [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste
simplement { lapplication des MCO sur les donnes transformes.
Revenons au modle simple { une variable o le terme derreur suit un processus AR(1) :
[6.9]

Yt = 0 + 1Xt + ut
o ut = ut 1 + vt

En substituant ut, par son expression, dans [6.9], on obtient :


[6.10]

Yt = 0 + 1Xt + ut 1 + vt
o ut 1= Yt 1 0 1Xt 1

Et en tenant compte de ut 1, [6.10] devient :


[6.11]

Yt = 0 + 1Xt + (Yt 1 0 1Xt 1) + vt

En effectuant dans la parenthse et aprs manipulation, il vient :


[6.12]
o

= 0 + 1 + v t
=Yt Yt 1 ; 0 = 0(1 ) ; 1 = 1 et

Une telle transformation est appele : transformation en quasi-diffrences.

= (Xt Xt 1)

Ass. Cdrick Tombola M.

84

Lorsque connu, lapplication des MCO sur ce dernier modle donne un estimateur BLUE. Le seul
inconvnient de la transformation en quasi-diffrences qui persisterait serait une perte dinformation, en
loccurrence
et . Afin de contourner cette difficult, Prais et Winsten (1954) ont propos de prendre
en compte la premire observation en utilisant la procdure suivante :
et

Procdures destimation de
Il existe plusieurs mthodes pour estimer , dont les plus populaires sont :

La procdure destimation directe ;


La mthode base sur la statistique DW ;
La mthode itrative de Cochrane-Orcutt.
(a) Procdure
destimation directe

(b) Mthode base sur


(c) Mthode itrative de Cochrane-Orcutt
la statitistique DW
Modle : Y = X + U
[A]
On suppose que les erreurs suivent un processus AR(1) : ut = ut 1 + vt
A partir des rsidus et du A partir de la statistique DW Soit le modle linaire simple :
modle [A], estimer par la issue de lestimation du
Yt = 0 + 1Xt + ut
formule :
modle [A], et connaissant la
o ut = ut 1 + vt
relation [6.7], estimer par
la formule :
En quasi-diffrences, on a :
Yt Yt 1 = 0(1 ) + 1(Xt Xt 1) + vt
ou encore,
chantillons :

pour

grands

o est le coefficient de
corrlation linaire.

En faisant fi de la premire observation que lon


perd, la procdure itrative de Cochrane-Orcutt
se prsente comme suit :
(i)

(ii)

(iii)

(iv)

(v)

Fixer une premire valeur de : on


peut soit donner une valeur priori,
soit =0, soit encore partir de la
valeur de telle que calcule en
(a) ;
Utiliser cette valeur de pour
estimer le modle en quasidiffrences ci-dessus ;
A partir des rsidus
issus de
lestimation effectue en (ii),
restimer par la formule donne
en (a), ce qui permet dobtenir un
1 ;
Utiliser le nouveau calcul en (iii)
pour estimer nouveau le modle
en quasi-diffrences. Les rsidus
issus
de
cette
rgression
permettent dobtenir un 2 :
Et ainsi de suite.

Le processus itratif se termine quand on note


la convergence, cest--dire quand les
coefficients
estims
ne
varient
plus
sensiblement dune rgression { lautre

Ass. Cdrick Tombola M.

85

Note : Le logiciel Eviews permet automatiquement deffectuer la correction de lautocorrlation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement dinsrer, la commande
destimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter galement que la
correction de lautocorrlation nest accepte que si le coefficient associ au processus introduit dans le
modle [AR(1), MA(1), etc.] est significatif.

VI.2. Htroscdasticit
A. Problme
Dun point de vue tymologique, le terme htroscdasticit comprend deux mots. Dabord htro qui
fait rfrence plusieurs , ensuite le terme scdasticit , associ la fonction scdastique , qui
signifie variance conditionnelle . Htroscdasticit signifie donc diffrentes variances. On dit quil y a
htroscdasticit lorsque lhypothse de la constance de lerreur
, mise lors de la
prsentation de la mthode des moindres carrs ordinaires, est viole.
Comme pour lautocorrlation, la consquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaiss, ne sont plus efficients, puisque nayant plus une variance minimale. Et par
consquent les t de Student et F de Fisher ne sont plus utilisables { des fins dinfrence.
Il faut noter galement que lhtroscdasticit est un problme qui se pose plus dans les modles spcifis
en coupe transversale que ceux des chroniques.
B. Tests de dtection
Il existe toute une batterie de tests permettant de dtecter l htroscdasticit, dont notamment :

Le test de Park
Le test de Goldfeld Quandt
Le test de Glejser
Le test de Breusch Pagan Godfrey
Le test dgalit des variances
Le test de Koenker Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH

Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utiliss dans la pratique.
Le test de White (1980)
Soit le modle linaire multiple suivant :
[6.13]

Yt = 0 + 1X1t + 2X2t + 3X3t + ut

Le test de White, propos par Halbert White en 1980, teste les hypothses suivantes :

Jinvite le lecteur qui dsire prendre connaissance de tous ces tests consulter les manuels de Kintambo
(2004) et Bosonga (2010).

Ass. Cdrick Tombola M.

86

Le test de White prsente lavantage quil ne ncessite pas que lon spcifie les variables qui sont { la cause
de lhtroscdasticit.
Pour tester H0, ce test peut se faire de deux faons ci-aprs :
(i)

Test de White avec termes croiss, qui est bas sur lestimation du modle :

[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.
(ii)

Test de White sans termes croiss, bas sur lestimation du modle suivant :
[6.14]
o et sont les rsidus issus de lestimation par OLS du modle [6.13] et vt le terme derreur.

Ce est bas sur la statistique LM, donne par :


LM = n R2
(m)
o m est le nombre de rgresseurs (exognes) dans lexpression estime.
Critre de dcision : Si LM >

(m)

RH0, il y a htroscdasticit.

Le test de AutoRegressive Conditionnal Heteroscedasticity (Test ARCH)


Les hypothses formuler pour ce test sont :

Partant des rsidus et issus de lestimation du modle [6.13], la dtection de lhtroscdasticit par le test
ARCH se fait en rgressant le carr des rsidus et sur leurs dcalages puissance deux, soit :
[6.15]
Le test est fond soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :
LM = n R2
(m)
o m est le nombre de rgresseurs (exognes) prsents dans le modle [6.15].
Critre de dcision : Si LM >

(m)

RH0, il y a htroscdasticit.

Le nombre de retards tant dterminer.

Ass. Cdrick Tombola M.

87

C. Correction de lhtroscdasticit
Soit le modle :
Yi = 0 + 1Xi + ui
La correction de lhtroscdasticit se fait en appliquant les moindres carrs pondrs, cest--dire les
moindres carrs ordinaires sur lun des modles transforms ci-dessous :
(1)

si E(

(2)

si E(

(3)

si E(

VI.3. Multicolinarit
A. Problme
Il y a multicolinarit lorsque lhypothse de lorthogonalit des exognes ou encore de leur indpendance
linaire
est relche. Dans ce cas, la mthode des moindres carrs ordinaires est dfaillante et il
devient difficile disoler limpact individuel de chaque exogne sur lendogne.
On distingue gnralement deux types de multicolinarit : la multicolinarit parfaite ou exacte et la quasi
multicolinarit ou multicolinarit imparfaite.
En cas de multicolinarit parfaite, la matrice
est singulire, et par consquent son inverse (
)1
nexiste pas, ce qui rend la mthode OLS compltement dfaillante ; il est nest donc pas possible devant
une telle situation destimer les paramtres du modle.
Dans la pratique, cest plut t le cas de quasi multicolinarit qui est frquent. En effet, la multicolinarit
imparfaite correspond au cas o la matrice
est non singulire, mais son dterminant est proche de 0. La
consquence directe est quon aura des valeurs trs grandes dans la matrice inverse (
)1 qui, par la
mthode classique, est calcule comme suit :
[6.16]
Dans [6.16], si
(

0, la matrice (

)1 =

)1 aura des valeurs de plus en plus grandes, la matrice COVA

) galement. La consquence, et donc le problme pos par la multicolinarit est que, du

fait de la valeur leve des variances des coefficients estims, les rsultats de lestimation perdent en prcision,
cest--dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont levs.
Lautre problme pos par la multicolinarit est linstabilit de paramtre et leffet de masque qui rend difficile
la mise en vidence de la contribution individuelle de diffrentes variables explicatives sur lendogne.
Note : Si les problmes dautocorrlation des erreurs et dhtroscdasticit peuvent se poser quel que soit
le nombre dexognes intervenant dans le modle, le problme de multicolinarit, en revanche, na de
sens que dans un modle de rgression linaire multiple.

La notion de multicolinarit a t introduite, dans les annes 50, par Lawrence Klein.

Ass. Cdrick Tombola M.

88

B. Tests de dtection
Les tests de dtection de la multicolinarit les plus populaires sont le test de Klein et le test de Farrar et
Glauber.
Le test de Klein
Soit le modle :

Le test de Klein se fait en trois tapes que voici :


(a) Estimer le modle [6.17] et calculer le R2 ;
(b) Calculer la matrice des coefficients de corrlation linaire entre variables exognes, prises deux
deux, soit :

(c) Comparer, enfin, le R2 de la rgression aux diffrents coefficients de corrlation. Il y a prsomption


de multicolinarit si au moins un des
lev au carr est suprieur au R2.
Note : Le test de Klein nest pas un test statistique au sens test dhypothses mais simplement un critre de
prsomption de multicolinarit. Cest pourquoi il doit tre complt par le test de Farrar et Glauber qui est
bien un test statistique.
Le test de Farrar et Glauber
Le test de Farrar et Glauber teste les hypothses suivantes :

Ce test est bas sur la statistique du

, calcule { partir de lchantillon comme suit :

o n est la taille de lchantillon ; K le nombre de paramtres ; Ln le logarithme nprien et D le dterminant de


la matrice des coefficients de corrlation linaire entre exognes, soit :

Ass. Cdrick Tombola M.

89

D=

est le nombre de degrs de libert.


Critre de dcision : si

>

RH0.

C. Remdes la multicolinarit
Parmi les techniques permettant dliminer la multicolinarit, on peut citer :

Augmenter la taille de lchantillon


Appliquer la Ridge Regression qui est une rponse purement numrique, il sagit de transformer
la matrice
en une matrice (
) o k est une constante choisie arbitrairement qui et I la
matrice unit.

Face ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spcification du modle,
liminer les sries explicatives susceptibles de reprsenter les mmes phnomnes et donc dtre corrles
entre elles, ceci afin dviter leffet masque ************.

VI.4. Normalit des erreurs


A. Problme
Le problme dabsence de normalit se pose lorsque lhypothse ut

(0,

) est viole. A titre de rappel,

lhypothse de normalit, mise lors de la prsentation de la mthode OLS, est la cl de linfrence


statistique. Elle est donc ncessaire pour mener les tests statistiques et construire les intervalles de
confiance. Sa violation ne touche pas le caractre non biais des paramtres mais rend linfrence, dans le
modle linaire, impossible car les distributions des estimateurs ne sont plus connues.
B. Tests de dtection
Les tests de normalit ont t rigoureusement prsents dans la partie introductive de ce recueil portant
sur les rappels statistiques, le lecteur est donc convi { sy rapporter.
C. Remdes la non-normalit des rsidus
Le meilleur remde la non-normalit des rsidus est dagrandir la taille de lchantillon. La transformation
de Box Cox, sur les variables non normales intervenant dans le modle, est souvent aussi indique.

************

Bourbonnais (2005).

Ass. Cdrick Tombola M.

90

Exercices sur le chapitre 6


Exercice 1
Soit le modle ci-aprs :
Yt = 0 + 1X1t + 2X2t + t
(t= 1, , n) et n=30

o
En lestimant par OLS, on a obtenu

=0,52 et

=0,28. On aussi calcul la statistique de Durbin-Watson :

d=DW=0,78.
a) Effectuer, au seuil de 5%, le test dhypothse 2=0.
b) Que faut-il penser de lhypothse de non autocorrlation des rsidus ?

Exercice 2
En cherchant { expliquer le phnomne russite en conomtrie, en 2012, lassistant Dandy Matata a
spcifi le modle suivant :
Yi = 0 + 1X1i + 2X2i + i
o Yi est la cote obtenue en conomtrie par ltudiant i ; X1i est la prsence au cours dconomtrie et X2i le
nombre dheures dtudes consacres { ce cours.
15 tudiants ont t chantillonns. Lestimation a permis de calculer la statistique DW = 0.4.
Tester lautocorrlation du premier ordre dans le modle spcifi par lassistant Matata.

Exercice 3
Soit lchantillon de taille n=5 :
Yt
8
2
6
0
4
Yt=20

X1t
3
1
3
1
2
X1t=10

X2t
6
2
6
2
4
X2t=20

(a) Quel est le problme pos par lestimation du modle :


Yt = a + bX1t + dX2t + ut
(b) Comment peut-on le rsoudre ?

Exercice 4
Au regard des rsultats ci-aprs, sur lestimation de lhypothse de Kuznet en RDC pour la priode allant de
1975 2011, quel problme, selon vous, sest pos dans lestimation de cette relation ? Par quoi le voyezvous ?

Ass. Cdrick Tombola M.

Variable endogne : IGI


Mthode destimation : Moindres carrs ordinaires
Variables explicatives
Coefficients
Constante
0.453311
PIBH
0.000813
2
PIBH
- 0.00000426
R2 = 0.891141

R2 ajust = 0.873561

t- statistic
0.784894
0.268563
- 0.772470

91

Probabilit critique
0.4417
0.7910
0.4489

F stat. = 114.9272

o IGI est le coefficient dingalit de GINI et PIBH le PIB rel par habitant.

Exercice 5
Le tableau ci-dessous reporte les rsultats du test de White, aprs estimation de la relation entre coefficient
dingalit de GINI (IGI) et le PIB rel par habitant (PIBH) en RDC.
White Heteroskedasticity Test:
F-statistic
Obs*R-squared

6.482164

Probability

0.004122

10.21371

Probability

0.006055

Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/25/12 Time: 15:46
Sample: 1975 2011
Included observations: 37
Variable

Coefficient

Std. Error

t-Statistic

Prob.

-18.82177

41.99457

-0.448195

0.6569

LPIB

1.623484

3.731230

0.435107

0.6662

LPIB^2

-0.034949

0.082874

-0.421711

0.6759

R-squared

0.276046

Mean dependent var

0.014520

Adjusted R-squared

0.233461

S.D. dependent var

0.019998

S.E. of regression

0.017509

Akaike info criterion

-5.174612

Sum squared resid

0.010423

Schwarz criterion

Log likelihood

98.73032

F-statistic

6.482164

Durbin-Watson stat

0.214247

Prob(F-statistic)

0.004122

-5.043997

Travail demand :
Aprs avoir rappel les principales caractristiques de ce test (hypothses nulle et alternative, principe
gnral du test, rgle de dcision), commenter les rsultats. Conclure quant la nature des rsidus.
Rappel : la valeur critique de la loi du Khi-deux 2 degrs de libert et au seuil de 5% est gale 5,991.

92

Ass. Cdrick Tombola M.

ANNEXES
ANNEXE 1 : TABLES STATISTIQUES
Test de Shapiro et Wilk [table des coefficients]
n
J
1
2
3
4
5
n
J
1
2
3
4
5
6
7
8
9
10
n
J
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

10

0.7071

0.7071
0.0000

0.6872
0.1677

0.6646
0.2413
0.0000

0.6431
0.2806
0.0875

0.6233
0.3031
0.1401
0.0000

0.6052
0.3164
0.1743
0.0561

0.5888
0.3244
0.1976
0.0947
0.0000

0.5739
0.3291
0.2141
0.1224
0.0399

11

12

13

14

15

16

17

18

19

20

0.5601
0.3315
0.2260
0.1429
0.0695
0.0000

0.5475
0.3325
0.2347
0.1586
0.0922
0.0303

0.5359
0.3325
0.2412
0.1707
0.1099
0.0539
0.0000

0.5251
0.3318
0.2460
0.1802
0.1240
0.0727
0.0240

0.5150
0.3306
0.2495
0.1878
0.1353
0.0880
0.0433
0.0000

0.5056
0.3290
0.2521
0.1939
0.1447
0.1005
0.0593
0.0196

0.4963
0.3273
0.2540
0.1988
0.1524
0.1109
0.0725
0.0359
0.0000

0.4886
0.3253
0.2553
0.2027
0.1587
0.1197
0.0837
0.0496
0.0163

0.4808
0.3232
0.2561
0.2059
0.1641
0.1271
0.0932
0.0612
0.0303
0.0000

0.4734
0.3211
0.2565
0.2085
0.1686
0.1334
0.1013
0.0711
0.0422
0.0140

21

22

23

24

25

26

27

28

29

30

0.4643
0.3185
0.2578
0.2119
0.1736
0.1399
0.1092
0.0804
0.0530
0.0263
0.0000

0.4590
0.3156
0.2571
0.2131
0.1764
0.1443
0.1150
0.0878
0.0618
0.0368
0.0122

0.4542
0.3126
0.2563
0.2139
0.1787
0.1480
0.1201
0.0941
0.0696
0.0459
0.0228
0.0000

0.4493
0.3098
0.2554
0.2145
0.1807
0.1512
0.1245
0.0997
0.0764
0.0539
0.0321
0.0107

0.4450
0.3069
0.2543
0.2148
0.1822
0.1539
0.1283
0.1046
0.0823
0.0610
0.0403
0.0200
0.0000

0.4407
0.3043
0.2533
0.2151
0.1836
0.1563
0.1316
0.1089
0.0876
0.0672
0.0476
0.0284
0.0094

0.4366
0.3018
0.2522
0.2152
0.1848
0.1584
0.1346
0.1128
0.0923
0.0728
0.0540
0.0358
0.0178
0.0000

0.4328
0.2992
0.2510
0.2151
0.1857
0.1601
0.1372
0.1162
0.0965
0.0778
0.0598
0.0424
0.0253
0.0084

0.4291
0.2968
0.2499
0.2150
0.1064
0.1616
0.1395
0.1192
0.1002
0.0822
0.0650
0.0483
0.0320
0.0159
0.0000

0.4254
0.2944
0.2487
0.2148
0.1870
0.1630
0.1415
0.1219
0.1036
0.0862
0.0697
0.0537
0.0381
0.0227
0.0076

Ass. Cdrick Tombola M.

Test de Shapiro et Wilk [Table des valeurs limites de W]


N
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50

W 95%
0.842
0.850
0.859
0.856
0.874
0.881
0.837
0.892
0.897
0.901
0.905
0.908
0.911
0.914
0.916
0.918
0.920
0.923
0.924
0.926
0.927
0.929
0.930
0.931
0.933
0.934
0.935
0.936
0.938
0.939
0.940
0.941
0.942
0.943
0.944
0.945
0.945
0.946
0.947
0.947
0.947

W 99%
0.781
0.792
0.805
0.814
0.825
0.835
0.844
0.851
0.858
0.863
0.868
0.873
0.878
0.881
0.884
0.888
0.891
0.894
0.896
0.898
0.900
0.902
0.904
0.906
0.908
0.910
0.912
0.914
0.916
0.917
0.919
0.920
0.922
0.923
0.924
0.926
0.927
0.928
0.929
0.929
0.930

93

94

Ass. Cdrick Tombola M.

Table de distribution de la loi T de Student [Test bilatral]


(Valeurs de T ayant la probabilit P d'tre dpasse en valeur absolue)

Pr
ddl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
80
120

0.90

0.80

0.70

0.60

0.50

0.40

0.30

0.20

0.10

0.05

0.02

0.01

0.001

0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.137
0.127
0.127
0.127
0.126
0.126
0.126
0.126

0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.255
0.254
0.254
0.253

0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.388
0.387
0.386
0.385

0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
0.540
0.539
0.538
0 537
0.536
0.535
0.534
0.534
0.533
0.533
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0 530
0.530
0.529
0.527
0.526
0.524

1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0 688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.677
0.674

1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.961
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.851
0.848
0.845
0.842

1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.050
1.046
1.041
1.036

3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
1.282

6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
1.645

12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.263
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
1.960

31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.358
2.326

63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.617
2.576

636.619
31.598
12.929
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.767
3.745
3.725
3.707
3.690
3.674
3.649
3.656
3.551
3.460
3.373
3.291

Ass. Cdrick Tombola M.

95

Table de distribution de la loi F de Fisher-Snedecor


(Valeurs de F ayant la probabilit d'tre dpasses : F = S12/S22)

Nu2
1
2
3
4
3
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120

Nu1 = 1
= 0.05 = 0.01
161.4
4052.00
18.51
98.49
10.13
34.12
7.71
21.20
6.61
16.26
3.99
13.74
3.39
12.23
3.32
11.26
5.12
10.56
4.96
10.04
4.84
9.65
4.75
9.33
4.67
9.07
4.60
8.86
4.34
8.68
4.49
8.53
4.45
8.40
4.41
8.28
4.38
8.18
4.35
8.10
4.32
8.02
4.30
7.94
4.28
7.88
4.26
7.82
4.24
7.77
4.22
7.72
4.21
7.68
4.20
7.64
4.18
7.60
4.17
7.56
4.08
7.31
4.00
7.08
3.92
6.85
3.84
6.64

Nu1 = 2
= 0.05
= 0.01
199.5
4999.00
19.00
99.00
9.55
30.81
6.94
18.00
5.79
13.27
3.14
10.91
4.74
9.35
4.46
8.63
4.26
8.02
4.10
7.56
3.98
7.20
3.88
6.93
3.80
6.70
3.74
6.31
3.68
6.36
3.63
6.23
3.59
6.11
3.53
6.01
3.52
5.93
3.49
5.85
3.47
5.78
3.44
5.72
3.42
5.66
3.40
5.61
3.38
5.37
3.37
5.33
3.33
5.49
3.34
5.43
3.33
5.42
3.32
5.39
3.23
5.18
3.15
4.98
3.07
4.79
2.99
4.60

Nu1 = 3
= 0.05 = 0.01
213.7
3403.00
19.16
99.17
9.28
29.46
6.59
16.69
5.41
12.06
4.76
9.78
4.33
8.43
4.07
7.39
3.86
6.99
3.71
6.33
3.59
6.22
3.49
5.93
3.41
5.74
3.34
5.56
3.29
5.42
3.24
5.29
3.20
5.18
3.16
5.09
3.13
5.01
3.10
4.94
3.07
4.87
3.05
4.82
3.03
4.76
3.01
4.72
2.99
4.68
2.98
4.64
2.96
4.60
2.95
4.57
2.93
4.34
2.92
4.31
2.84
4.31
2.76
4.13
2.68
3.93
2.60
3.78

Nu1 = 4
= 0.05
= 0.01
224.6
5625.00
19.25
99.25
9.12
28.71
6.39
13.98
5.19
11.39
4.53
9.13
4.12
7.85
3.84
7.01
3.63
6.42
3.48
5.99
3.36
5.67
3.26
5.41
3.18
5.20
3.11
5.03
3.06
4.89
3.01
4.77
2.96
4.67
2.93
4.58
2.90
4.50
2.87
4.43
2.84
4.37
2.82
4.31
2.80
4.26
2.78
4.22
2.76
4.18
2.74
4.14
2.73
4.11
2.71
4.07
2.70
4.04
2.69
4.02
2.61
3.83
2.32
3.65
2.43
3.48
2.37
3.32

Nu1 = 5
= 0.05 = 0.01
230.2
5764.00
19.30
99.30
9.01
28.24
6.26
13.32
5.03
10.97
4.39
8.75
3.97
7.45
3.69
6.63
3.48
6.06
3.33
5.64
3.20
5.32
3.11
5.06
3.02
4.86
2.96
4.69
2.90
4.56
2.85
4.44
2.81
4.34
2.77
4.25
2.74
4.17
2.71
4.10
2.68
4.04
2.66
3.99
2.64
3.94
2.62
3.90
2.60
3.86
2.39
3.82
2.37
3.78
2.56
3.75
2.34
3.73
2.53
3.70
2.43
3.31
2.37
3.34
2.29
3.17
2.21
3.02

S12 est la plus grande des deux variances estimes. avec n degrs de libert au numrateur.

96

Ass. Cdrick Tombola M.

Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 5 %.
2

Autocorrlation
positive

Absence
dautocorrlation

DOUTE
dL

du

Autocorrlation
ngative

DOUTE
4-du

4-dL

k=1
k=2
k=3
k=4
k=5
n
dL
du
dL
du
dL
du
dL
du
dL
du
15
1.08
1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16
1.10
1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17
1.13
1.38
1.02
1.54 0.90 1.71
0.78
1.91 0.67 2.10
18
1.16
1.39
1.05
1.53 0.93 1.69 0.82 1.87
0.71 2.06
19
1.18
1.40 1.08
1.53 0.97 1.68 0.86 1.85 0.75 2.02
20
1.20
1.41
1.10
1.54 1.00 1.68 0.90 1.83 0.79 1.99
21
1.22
1.42
1.13
1.54
1.03
1.67 0.93 1.81 0.83 1.96
22
1.24
1.43
1.15
1.54
1.05 1.66 0.96 1.80 0.86 1.94
23
1.26
1.44
1.17
1.54 1.08 1.66 0.99 1.79 0.90 1.92
24
1.27
1.45
1.19
1.55
1.10
1.66
1.01
1.78 0.93 1.90
25
1.29
1.45
1.21
1.55
1.12
1.66 1.04
1.77 0.95 1.89
26
1.30
1.46
1.22
1.55
1.14
1.65 1.06 1.76 0.98 1.88
27
1.32
1.47
1.24
1.56
1.16
1.65 1.08 1.76
1.01
1.86
28
1.33
1.48 1.26
1.56
1.18
1.65
1.10
1.75
1.03
1.85
29
1.34
1.48
1.27
1.56
1.20
1.65
1.12
1.74
1.05
1.84
30
1.35
1.49 1.28
1.57
1.21
1.65
1.14
1.74
1.07
1.83
31
1.36
1.50
1.30
1.57
1.23
1.65
1.16
1.74
1.09 1.83
32
1.37
1.50
1.31
1.57
1.24
1.65
1.18
1.73
1.11
1.82
33
1.38
1.51
1.32
1.58
1.26
1.65
1.19
1.73
1.13
1.81
34
1.39
1.51
1.33
1.58
1.27
1.65
1.21
1.73
1.15
1.81
35
1.40
1.52
1.34
1.58
1.28
1.65
1.22
1.73
1.16
1.80
36
1.41
1.52
1.35
1.59
1.29
1.65
1.24
1.73
1.18
1.80
37
1.42
1.53
1.36
1.59
1.31
1.66
1.25
1.72
1.19
1.80
38
1.43
1.54
1.37
1.59
1.32
1.66 1.26
1.72
1.21
1.79
39
1.43
1.54
1.38 1.60
1.33
1.66
1.27
1.72
1.22
1.79
40
1.44
1.54
1.39 1.60 1.34
1.66 1.29
1.72
1.23
1.79
45
1.48
1.57
1.43
1.62
1.38
1.67
1.34
1.72
1.29
1.78
50
1.50
1.59 1.46 1.63
1.42
1.67
1.38
1.72
1.34
1.77
55
1.53
1.60 1.49 1.64 1.45 1.68
1.41
1.72
1.38
1.77
60
1.55
1.62
1.51
1.65 1.48 1.69 1.44
1.73
1.41
1.77
65
1.57
1.63
1.54 1.66 1.50
1.70
1.47
1.73
1.44
1.77
70
1.58
1.64
1.55
1.67
1.52
1.70
1.49 1.74
1.46
1.77
75
1.60
1.65
1.57
1.68 1.54
1.71
1.51
1.74
1.49
1.77
80
1.61
1.66 1.59 1.69 1.56
1.72
1.53
1.74
1.51
1.77
85
1.62
1.67 1.60 1.70
1.57
1.72
1.55
1.75
1.52
1.77
90
1.63
1.68
1.61
1.70
1.59
1.73
1.57
1.75
1.54
1.78
95
1.64
1.69 1.62
1.71
1.60
1.73
1.58
1.75
1.56
1.78
100 1.65
1.69 1.63
1.72
1.61
1.74
1.59
1.76
1.57
1.78

k : nombre de variables exognes; n : nombre dobservations et = 0.05.

Ass. Cdrick Tombola M.

Table de Durbin-Watson
La table donne les limites infrieures et suprieures des seuils de signification du test de Durbin et Watson pour = 1 %.
2

Autocorrlation
positive

n
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
55
60
65
70
75
80
85
90
95
100

Absence
dautocorrlation

DOUTE
dL

du

Autocorrlation
ngative

DOUTE
4-du

4-dL

k=1
k=2
k=3
k=4
k=5
dL
du
dL
du
dL
du
dL
du
dL
du
0.81
1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96
0.84
1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90
0.87
1.10
0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85
0.90
1.12 0.80 1.26
0.71
1.42 0.61 1.60 0.52 1.80
0.93
1.13
0.83 1.26 0.74
1.41 0.65 1.58 0.56 1.77
0.95
1.15 0.86 1.27
0.77
1.41 0.68 1.57 0.60 1.74
0.97
1.16 0.89 1.27 0.80 1.41
0.72 1.55 0.63
1.71
1.00
1.17
0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69
1.02
1.19 0.94 1.29 0.86 1.40 0.77
1.53 0.70 1.67
1.04
1.20 0.96 1.30 0.88 1.41 0.80 1.53
0.72 1.66
1.05
1.21 0.98 1.30 0.90 1.41 0.83 1.52
0.75 1.65
1.07
1.22
1.00
1.31
0.93 1.41 0.85 1.52 0.78 1.64
1.09
1.23
1.02
1.32 0.95 1.41 0.88 1.51
0.81 1.63
1.10
1.24
1.04
1.32 0.97 1.41 0.90 1.51
0.83 1.62
1.12
1.25
1.05
1.33 0.99 1.42 0.92
1.51
0.85 1.61
1.13
1.26
1.07
1.34
1.01
1.42 0.94 1.51 0.88 1.61
1.15
1.27
1.08 1.34
1.02
1.42 0.96 1.51 0.90 1.60
1.16
1.28
1.10
1.35
1.04 1.43 0.98 1.51
0.92 1.60
1.17
1.29
1.11
1.36
1.05
1.43 1.00
1.51 0.94 1.59
1.18
1.30
1.13
1.36
1.07
1.43
1.01
1.51
0.95 1.59
1.19
1.31
1.14
1.37
1.08 1.44 1.03
1.51
0.97 1.59
1.21
1.32
1.15
1.38
1.10
1.44 1.04
1.51 0.99 1.59
1.22
1.32
1.16
1.38
1.11
1.45 1.06
1.51
1.00 1.59
1.23
1.33
1.18
1.39
1.12
1.45
1.07
1.52
1.02
1.58
1.24
1.34
1.19
1.39
1.14
1.45 1.09
1.52
1.03
1.58
1.25
1.34
1.20
1.40
1.15
1.46
1.10
1.52
1.05
1.58
1.29
1.38
1.24
1.42
1.20
1.48
1.16
1.53
1.11
1.58
1.32
1.40 1.28
1.45
1.24
1.49 1.20
1.54
1.16
1.59
1.36
1.43
1.32
1.47
1.28
1.51
1.25
1.55
1.21
1.59
1.38
1.45
1.35
1.48
1.32
1.52
1.28
1.56
1.25
1.60
1.41
1.47
1.38
1.50
1.35
1.53
1.31
1.57
1.28
1.61
1.43
1.49 1.40
1.52
1.37
1.55
1.34
1.58
1.31
1.61
1.45
1.50
1.42
1.53
1.39
1.56
1.37
1.59
1.34
1.62
1.47
1.52
1.44
1.54
1.42
1.57
1.39 1.60 1.36
1.62
1.48
1.53
1.46
1.55
1.43
1.58
1.41
1.60 1.39
1.63
1.50
1.54
1.47
1.56
1.45
1.59
1.43
1.61
1.41
1.64
1.51
1.55
1.49
1.57
1.47
1.60 1.45
1.62
1.42
1.64
1.52
1.56
1.50
1.58
1.48 1.60 1.46 1.63
1.44 1.65

k : nombre de variables exognes; n : nombre dobservations et = 0.01.

97

Ass. Cdrick Tombola M.

98

ANNEXE 2 : INITIATION AU LOGICIEL ECONOMETRIQUE EVIEWS


Les machines un jour pourront rsoudre tous les problmes, mais jamais aucune d'entre elles ne pourra en poser un !
Albert Einstein

Lancement de lcran daccueil Eviews

Une fois install, le logiciel Eviews est lanc comme tout autre en double-cliquant sur licne Eviews au
bureau.
Barre de menu

Voici comment se prsente Eviews au lancement :

Barre de commande

Cration dune feuille de travail [workfile]


Le travail sur Eviews commence par la cration dune feuille de travail o lon spcifie essentiellement la
frquence des donnes [annuelles, trimestrielles, mensuelles, etc.], leur nature [rgulires, irrgulire,
panel] et la taille de lchantillon. Cette opration peut se faire de deux manires :
(a) Dans la barre de menu, aller dans File
New
Une bote de dialogue souvre o il faut distinguer trois zones.

Workfile

Ici, prciser la frquence des donnes et la


taille de lchantillon. Cette zone change selon
que les donnes sont rgulires [pour sries
temporelles], irrgulires [pour sries en
coupes transversales] ou en panel.

Dans cette zone, donner un nom la feuille


de travail cre. Comme sur Excel, Eviews
donne galement la possibilit de travailler
sur plusieurs pages. Dans page on peut les
particulariser en tapant un nom.
Ici, prciser si les donnes sont rgulires,
irrgulires ou en panel]

Ass. Cdrick Tombola M.

99

Supposons que lon ait une srie temporelle annuelle, qui va de 2000 2010. Il suffira de choisir :
-

Dated regular frenquency dans longlet Workfile structure type


Annual dans longle Frenquency

Puis prciser la taille de lchantillon dans Start date et End date.

Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette premire page [EXERCICE par
exemple] :

En cliquant sur OK, la feuille de travail est cre.


(b) Dans la barre de commande, saisir la commande create a 2000 2010
Note : Eviews nest pas sensible la casse !
Cration des variables et saisie des donnes dans Eviews
Considrons, pour la priode 2000-2010, les statistiques sur le taux de croissance du PIB [note TCPIB]
et le taux de chmage [note CHOM], produites par la BCC.
Pour crer les deux sries, dans la barre de commande, on saisit la commande data TCPIB CHOM puis
Enter.
Une fois les deux sries cres, on peut soit :
-

saisir les donnes comme on le ferait sur Excel


si les donnes sont saisies sur Excel, les copier-coller, srie par srie [aprs avoir pris soin de
remplacer toutes les virgules ventuelles par des points]
importer les donnes partir dExcel dans Eviews

A partir dExcel, importation des donnes dans Eviews


Suivre les tapes ci-aprs :

1. Enregistrer les donnes saisies sur Excel sous Excel 97-2003, en ayant en mmoire juste les noms
donns aux sries, puis fermer le fichier ;

2. Dans Eviews, crer une feuille de travail avec la mme taille dchantillon que les donnes
enregistres sur Excel. Puis crer les variables avec les mmes noms que sur Excel.
Import
Read Text-Lotus-Excel Une bote
de dialogue apparat o il faut reprendre le nom du fichier Excel. Rechercher le fichier o il a t
enregistr, puis le slectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider.
4. Une nouvelle bote de dialogue apparat. L, dans Names of series or number if named in file, taper
les noms des sries dans le mme ordre que sur Excel, puis OK.

3. Dans la barre de Menu Eviews, aller dans File

Ass. Cdrick Tombola M.

100

Illustration de ltape 3

Illustration de ltape 4

En validant, Eviews importe automatiquement toutes les donnes partir dExcel.


Statistique descriptive des donnes et graphiques
En un clic, Eviews peut galement fournir les paramtres essentiels de position, de dispersion et de
forme dune srie. Ce qui permet par exemple, pour grand chantillon, de trancher sur la conformit
dune distribution la loi normale partir de la statistique de Jarque Bera.
Pour avoir ces informations, aller dans la barre de commande Eviews et saisir la commande stats TCPIB
CHOM puis Enter [la commande est stats suivi du (des) nom(s) de(s) la variable(s)].
Pour les deux sries de notre exemple, on obtient :

Ass. Cdrick Tombola M.

101

On lit par exemple, pour chaque srie, sa Moyenne [Mean], sa Mdiane [Median], son Maximum, son
Minimum, son Ecart-Type [Std. Dev.], son coefficient dasymtrie [Skewness], son coefficient
daplatissement [Kurtosis], sa statistique Jarque Bera, etc
De mme, il y a lieu davoir les mmes rsultats, dans la barre de commande, saisir la commande show
TCPIB CHOM puis valider, dans la fentre qui souvre, aller dans View
Descriptive Stats
Common Sample.
Graphiques
Dans la barre de commande, saisir les commandes :

scat TCPIB CHOM [pour un nuage des points]


line TCPIB CHOM [pour avoir des lignes]

Pour avoir dautres types de graphiques proposs par Eviews, dans la fentre des donnes, aller dans
View
Graph. Puis valider le graphique de son choix.

Estimation du coefficient des coefficients de corrlation de Bravais Pearson et de Spearman


Aprs avoir affich les deux variables que lon veut mettre en cause, il suffit daller dans View
Covariance Analysis. En validant, Eviews renvoie une bote, o on a la possibilit de choisir soit un
coefficient paramtrique (Bravais-Pearson) ou non paramtrique (Spearman) :

Ass. Cdrick Tombola M.

102

Si on choisit par exemple ordinary [corrlation paramtrique, Bravais-Pearson], on obtient :

Covariance Analysis: Ordinary


Date: 06/21/12 Time: 04:18
Sample: 1 11
Included observations: 11

TCPIB
CHOM
CHOM

TCPIB
TCPIB
CHOM

Correlation

t-Statistic

Probability

Observ.

1.000000
-0.677304
1.000000

-----2.761860
-----

----0.0220
-----

11
11
11

Eviews renvoie le coefficient, son Student et la probabilit critique, ce qui facilite beaucoup
linterprtation des rsultats, avec comme critre : rejeter H0 si probabilit critique < au seuil de
signification.
Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chmage et la
croissance du PIB en RDC, pour la priode 2000-2010, la loi dOkun se vrifie-t-elle ?

Estimation par OLS du modle linaire et tests


Pour estimer par OLS, il suffit daller dans Quick
Estimate Equation, puis entrer les variables, spares
par des espaces, dans lordre apparaissant dans le modle estimer, en notant le terme constant par la
lettre C, choisir ensuite la mthode destimation pour notre cas LS ou Least squares et valider.
Le mme rsultat peut tre aussi obtenu en saisissant, sur la barre de commande Eviews, la commande
LS suivi de nom de la variable endogne C noms des variables exognes spares deux deux par un
espace
Pour estimer un modle sans terme constant, il suffit de retirer C dans la commande passer.
Tests
Aprs avoir lanc la commande destimation par OLS, tous les tests portant sur les rsidus figurent dans
longlet Residuals Tests.

103

Ass. Cdrick Tombola M.

ANNEXE 3 : UN MOT SUR LES TESTS DE RACINE UNITAIRE ADF ET PHILLIPS-PERRON

Laboratoire dAnalyse Recherche en Economie Quantitative


One pager

Avril 2012

Numro-010

Lien : http://www.lareq.com

Processus stochastique et absence de trend


Une interprtation prudente et plus attentive

Cdrick Tombola Muke


"Dieu ne joue pas aux ds"
Albert Einstein

Avertissement
Ce papier est crit dans lobjectif de mettre en garde contre le risque des conclusions errones lors des
tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est crit au moment o, parmi la plupart
de nos tudiants du niveau de la licence, la mauvaise procdure et la mauvaise interprtation de ces
tests ont gagn le terrain.
Lobjet de notre papier repose sur le fait que nombre dconomtres en herbe, en menant ces tests,
oublient que ceux-ci considrent que la composante dterministe suit une tendance linaire et quun
processus DS (stationnaire en dme diffrence) nexclut pas la possibilit dun trend dun autre type.
De plus, ironie du sort, on ne pense dtecter la nature du trend que si les tests concluent une non
stationnarit dterministe et quil convient dappliquer lcart la tendance. Ce qui, curieusement,
revient accepter la possibilit davoir un trend de type non linaire dont on ne sest pas donn la peine
de dtecter au dbut du test.
Que faire ? Ce papier se propose de rpondre, prudemment, cette question, dabord en privilgiant les
aspects thoriques, ensuite en considrant une tude des cas qui permet de mettre en exergue la
problmatique souleve ci-dessus.

I.

Processus non stationnaire

A titre de rappel, un processus est stationnaire, au sens faible, si ses moments dordre 1 et dordre 2
sont indpendants du temps. Dans le cas contraire, il est dit non stationnaire. Pour ce dernier type de
chroniques, lune au moins de trois conditions ci-aprs est viole :
(i)

E(Yt) =

(ii)

E(

(iii)

Cov (Yt, Yt+k) = k ou -k

)=

Les travaux pionniers de Nelson et Plosser (1982), qui ont soulign la prsence dune racine unitaire dans
les principales sries macroconomiques, distinguent en effet deux types de processus dans la famille
des processus non stationnaires :

Ass. Cdrick Tombola M.

104

Les processus TS [Trend Stationary] qui sexpriment comme une fonction du temps et dun bruit
blanc :
Yt = f(t) + Zt

o Zt est un bruit blanc [white noise]

Ce type de processus est rendu stationnaire en lui retirant sa tendance dterministe [Zt = Yt - f(t)].

Les processus DS [Differency Stationary] qui sont caractriss par la prsence dau moins une
racine unitaire. De tels processus sont rendus stationnaires aprs d diffrences, (1 B)dYt.

Dun point de vue conomique, un processus TS implique que les chocs alatoires frappant lconomie
nauront quun effet transitoire sur lvolution de la chronique qui aura tendance ensuite revenir sur son
trend de long terme stable. En revanche, les chocs frappant lconomie auront un effet persistant et
durable sur lvolution de la chronique si le processus est DS.
II.

Tests de non stationnarit

Le but et lavantage des tests de non stationnarit consistent en la confirmation ou non de la non
stationnarit46, en la dtermination du type de processus et en la prcision de la bonne mthode de
stationnarisation.
On fait gnralement deux catgorisations de ces tests, synthtises dans le tableau ci-aprs.
Tableau 1. Catgorisation de tests de non stationnarit
Catgorisation quant aux hypothses testes
Tests dH0 de prsence de racine unitaire
- Test Dickey Fuller [DF]

Tests dH0 dabsence de racine unitaire


- Test de Kwiatkowski Phillips Schmidt Shin

- Test Augmented Dickey Fuller [ADF]

[KPSS]

- Test de Phillips Perron [PP]


- Test de Ng Perron
- Etc.
Catgorisation portant sur le type de trend pris en compte
Tests bass sur une tendance linaire

Tests bass sur une tendance non linaire

- Test DF

- Tendance polynomiale : Test de Ouliaris, Park et

- Test ADF

Phillips

- Test PP

- Tendance linaire par morceaux et chocs : test

- Test de Ng Perron

de Perron

- Test KPSS
- Etc.

La critique que nous formulons dans ce papier concerne essentiellement linterprtation des rsultats de
tests ADF et PP.

46

En effet, un examen graphique est parfois assez loquent pour se prononcer sur la non stationnarit dune
chronique.

105

Ass. Cdrick Tombola M.


Tests ADF et PP : la composante dterministe suit une tendance linaire

Dickey et Fuller (1976) sont les premiers avoir fourni un ensemble doutils statistiques formels pour
dtecter la non stationnarit dans un processus autorgressif du premier ordre. Dans leurs premiers
dveloppements, ils ont assum que le processus t tait un bruit blanc, or rien, priori, ne conduit la
satisfaction dune telle hypothse. La prise en compte de cette faiblesse a conduit les deux auteurs
proposer, en 1981, un test augment (ADF).
Le test de Phillips - Perron47, en revanche, propose une correction non paramtrique des tests de Dickey
Fuller afin de tenir compte des erreurs htroscdastiques.
La procdure des tests ADF et PP est base sur lestimation, par les MCO, de trois modles
autorgressifs, en intgrant tous les retards significatifs en diffrences premires, suivants :
[1]

Yt = Yt-1 +

+ t

[2]

Yt = c + Yt-1 +

[3]

Yt = c + bt + Yt-1 +

+ t
+ t

Le modle [3] est le modle gnral o la composante dterministe suit un trend linaire (t). Rappelons
que les tests ADF et PP sont des tests dhypothse nulle de prsence de racine unitaire et portent sur le
paramtre :
H0 : = 0

[non stationnarit ou prsence de racine unitaire]

H1 : < 0

[stationnarit ou absence de racine unitaire]

La procdure du test est la suivante.


Tableau 2. Procdure du test de non stationnarit
Modle

Conclusion du test

estimer
1. Estimer le
modle [3]
Tester b

Processus

Il y a un trend linaire

TS

Mthode de
stationnarisation
Ecart la tendance

Il ny a pas un trend linaire

.
2. Estimer le

Significatif

Tester

modle [2]
Tester c

Non RH0

DS avec drive

RH0

stationnaire

Non RH0

DS sans drive

RH0

stationnaire

Filtre aux diffrences

Non significatif

.
3. Estimer le modle [1]
Tester

Filtre aux diffrences

Comme il ressort du tableau, un processus TS signifie simplement labsence dune composante


dterministe suivant un trend linaire, un autre type de trend reste possible.
47

Propos par Phillips (1987), Phillips et Perron (1988).

Ass. Cdrick Tombola M.

106

Non stationnarit de nature mixte


Dans lestimation du modle [3], on dit quune chronique est caractrise par une non stationnarit de
nature mixte, si aprs tests de significativit des paramtres b et , on conclut quil y a existence, la
fois, dun trend linaire et dune racine unitaire.
Pour ce dernier cas, on peut aisment appliquer le filtre aux diffrences pour stationnariser la srie. En
effet, Dickey, Bell et Miller (1986) ont montr que si lobjectif poursuivi est la prvision, appliquer le filtre
aux diffrences en prsence dune non stationnarit de nature mixte, est plus rconfortant qualarmant,
car dans ce cas, estiment ces auteurs, la diffrenciation limine le trend linaire.
En conclusion, lorsquon mne les tests ADF et PP, conclure sur un processus DS implique simplement
quon a rcus la prsence dune tendance linaire dans la srie. Il serait donc erron de conclure,
brutalement, labsence dun trend, oubliant que les tests mens sont eux-mmes bass sur lhypothse
dune tendance linaire.
Figures 1. Quelques types de trend

Trend linaire (t)


250

Trend quadratique (t2)


45000
40000

200

35000
30000

150

25000
20000

100

15000
10000

50

5000
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193

0
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193

Trend exponentiel (et)


8E+86

Trend logarithmique [Log(t)]


6

7E+86

6E+86
4

5E+86
4E+86

3E+86

2E+86
1

1E+86
0

1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193

1
12
23
34
45
56
67
78
89
100
111
122
133
144
155
166
177
188
199

107

Ass. Cdrick Tombola M.


III.

Etude des cas de lindice des prix [rubrique alimentation] en RDC48

La srie sera abrge IP dans la suite de ce papier.


Figure 2. Analyse du plot de la srie IP

900
800
700
600
500
400
300
200
100
0
00

01

02

03

04

05

06

07

08

09

IP

La srie IP prsente une tendance haussire. Elle semble non stationnaire affecte dune tendance. Mais
de quel type ? Visiblement, dun trend non linaire.
Figure 3. Analyse du corrlogramme de la srie IP

Ce corrlogramme fait tat dune dcroissance lente de toutes les autocorrlations de IP. On constate
aussi que la premire autocorrlation partielle est significativement diffrente de zro. Ceci est indicatif
dune srie non stationnaire.

48

Les donnes sont reprises en annexe 1 et proviennent de la section conomique de lAmbassade Amricaine. Elles
sont mensuelles et couvrent la priode allant de 2000 2009.

108

Ass. Cdrick Tombola M.


Tests ADF et PP de la srie IP en niveau

Les rsultats de ces tests sont repris intgralement en annexe 2 de ce papier. Le nombre de retard,
retenu pour les deux tests, a t trouv en appliquant la stratgie destimation squentielle fonde sur
la significativit des coefficients des retards en diffrences premires, propose par Perron (1993).
Alors que lanalyse du plot a indiqu que la srie comportait un trend, les tests ADF et PP, synthtiss ciaprs, disent quil y a absence de trend. Cest donc ici quil faut viter toute conclusion htive. Il ny a
pas absence dun trend dans la srie IP, il y a plutt absence dun trend linaire.
Tableau 3. Test ADF et PP de la srie IP niveau
Retard

Drive

Trend
linaire

Non

Non

IP
P-value

Statistique
ADF

En niveau
Statistique
PP

6.706690

8.150683

1.0000

1.0000

Valeur critique
[ 5%]

Conclusion
Non-stationnaire
Type stochastique

-1.943540

La srie tant caractrise par une non stationnarit de nature stochastique (DS), il convient
dappliquer le filtre aux diffrences pour la rendre stationnaire.
Tableau 4. Tests ADF et PP de la srie IP en diffrences premires

IP
P-value

Statistique ADF
7.150804
0.0000

En diffrences premires
Statistique PP
Valeur critique [ 5%]
7.167671
-1.943563
0.0000

Conclusion
stationnaire

Figure 4. Plot de la srie stationnaire, vraisemblablement en moyenne

80
60
40
20
0
-20
-40
-60
00

01

02

03

04

05
DIP

06

07

08

09

You might also like