Professional Documents
Culture Documents
L’économétrie peut être définie comme l’application des méthodes statistiques à l’étude des phéno-
mènes économiques.
Branche des sciences économiques, elle fournit des méthodes permettant l’établissement des lois
économiques, la vérification d’hypothèses et la quantification des relations entre variables et ce à partir
des données chiffrées tirées des observations.
De ce fait, l’Econométrie constitue un complément indispensable à l’analyse économique. Ainsi, toute
recherche en sciences économiques fini toujours par la réalisation des travaux d’économétrie à un moment
ou un autre. Et c’est pour cette raison que dans tous les pays, la formation des économistes suppose
l’acquisition de ces techniques.
1
Chapitre 1. Introduction générale aux bases de l’économétrie
Etape 1 Construire un modèle testable qui soit justifié par la théorie économique et qui puisse être
vérifié statistiquement ;
Etape 3 Vérifier que les écarts entre les observations et les résultats théoriques du modèle ne sont pas
systématiques.
Commentaires du schéma
Dans la réalité l’économiste part d’une analyse théorique des déterminants de la variable étudiée en
identifiant les variables pouvant l’expliquer et le type de relations qu’elles sont susceptibles d’avoir avec la
variable expliquée. Ces éléments analytiques vont être traduits en une équation mathématique mettant en
relation la variable endogène (variables à expliquer ou régréssande) et ses principales variables explicatives
(régresseurs). En donnant aux variables les valeurs enregistrées dans la réalité, l’économétrie permet à
la fois de tester la validité du modèle et d’en chiffrer les paramètres. Elle rend possible la modélisation,
2
1.2. DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconétrique
c’est à dire la représentation simplifiée des phénomènes étudiés, par un ensemble cohérent de relations
mathématiques quantifiées. La modélisation est une approche qui consiste à approximer la réalité par un
modèle plus simple, ce qui ne pourra jamais représenter complètement la réalité dans toute sa complexité
A son tour la modélisation constitue un enrichissement important, sous la forme d’une aide à la
décision, en rendant possible la simulation, l’optimisation ou la prévision. La maxime du modélisateur
dit que " tous les modèles sont faux, mais certains sont utiles "
La simulation consiste à calculer les conséquences d’un ensemble d’hypothèses représentées par des
valeurs des variables explicatives. La prévision étend cet ensemble à des périodes futures. L’optimisation
adopte le chemin inverse et a pour but de déterminer les valeurs optimales de certaines variables en
fonction d’objectifs fixés. La plupart des grands centres de décision, qu’il s’agisse des banques, des agences
gouvernementales, des institutions internationales et des grandes entreprises utilisent régulièrement ces
techniques. Les constructeurs d’avions utilisent les modèles économiques pour analyser la demande
actuelle et future. Les Ministères des Finances, de l’économie ou du plan construisent des modèles
Macro-économiques pour la prévision et pour l’évaluation des politiques économiques. Les institutions
non gouvernementales d’aide au développement construisent et actualisent régulièrement des modèles des
grandes régions du monde et des principales économies nationales. Par conséquent, pour travailler dans ces
institutions, il est indispensable de pouvoir manier les techniques économétriques (souvent sophistiquées
et à haut niveau). Il en résulte aussi que pour pouvoir travailler avec ces institutions, il faut maîtriser le
langage commun. : Modèle économétrique.
En économétrie, nous pouvons considérer un modèle comme une représentation formalisée d’un
phénomène sous forme d’équation dont les variables sont des grandeurs économiques.
Son objet est de représenter les traits les plus marquants d’une réalité qu’il cherche à styliser. C’est
donc l’outil que le modélisateur utilise lorsqu’il cherche à comprendre et à expliquer les phénomènes.
Pour ce faire, il émet des hypothèses et explicite des relations. Le modèle est donc une représentation
schématique et partielle d’une réalité naturellement complexe. Toute la difficulté de la modélisation
consiste à ne retenir que la ou les représentations intéressantes pour le problème que le modélisateur
cherche à expliquer. Ce choix dépend de la nature du problème, du type de décision ou d’étude à effectuer.
La même réalité peut aussi être formalisée de diverses manières en fonction des objectifs. Comme le modèle
ne peut pas tout décrire, il restera toujours une partie inexpliquée qui sera supposée aléatoire. Le calcul
des probabilités est alors introduit pour prendre en compte la partie inexpliquée par le modèle. Dans le
domaine de la modélisation, la randomisation est introduite à titre d’hypothèse.
1.2.3 Historique
Premiers développements
Les tentatives de modélisation à partir de données empiriques ont une longue histoire que l’on peut
faire remonter aux "mathématiciens" anglais du XVII ème siècle et auxquels sont attachés les noms de
3
Chapitre 1. Introduction générale aux bases de l’économétrie
William Petty , Gregory King et Charles Devenant . Gregory King chercha par exemple à établir une loi
entre d’une part les déficits des récoltes de blé et d’autre part les variations du prix du blé . A partir
du XVIII ème et surtout du XIX ème siècle les économistes tentèrent d’ établir des lois économiques
à l’instar des lois de la physique newtonnienne . Ce projet fut mené en termes scientifiques par Moore
puis par Schultz , Lenoir , Tinbergen et Frisch entre 1914 et 1938 . Les deux grands axes de recherche
furent alors l’estimation d’une loi de demande ( ce qui conduisit au problème de l’identification ) et celle
des cycles économiques . Clément Juglar ( 1819 - 1905) fut le premier à utiliser les séries temporelles
pour analyser les cycles et fut suivit par Kuznets et Kondratieff . Toutefois les théoriciens du cycle se
limitèrent à l’étude de la périodicité du cycle et ne s’attachèrent guère à celle de la quantification des
relations causales sous jacentes. Leur apport à l’économétrie est donc resté marginal.
L’économétrie moderne est née à la fin des années 30 et pendant les années 40. Elle est la résultante de
trois phénomènes : le développement de la théorie de l’inférence statistique à la fin du XIX ème siècle ; la
théorie macroéconomique et la comptabilité nationale qui offrent des agrégats objectivement mesurables
( contrairement à la microéconomie fondée sur l’utilité subjective ) ; enfin, et surtout, la forte demande
de travaux économétriques, soit de la part d’organismes publics de prévision et de planification, soit
de la part d’entreprises qui ont de plus en plus besoin de modéliser la demande et leur environnement
économique général. A partir des années 60 l’introduction de l’informatique et des logiciels standardisés
va rendre presque routinière l’utilisation de l’économétrie.
En simplifiant de façon sans doute abusive l’on peut distinguer deux grandes périodes de la recherche
économétrique moderne. Jusqu’à la fin des années 70 l’économétrie va étudier la spécification et la
solvabilité de modèles macroéconomiques à équations simultanées. Puis à la suite de ce que l’on a appelé
la révolution des anticipations rationnelles et de la critique de Lucas, la recherche se tournera davantage
vers la microéconomie et l’analyse des séries temporelles.
La plus grande partie de la recherche économétrique américaine ( effectuée pour une large part
au sein de la Cowles Commission ) entre 1944 et 1960 porta sur les conditions d’estimation des
modèles macroéconomiques d’équations simultanées comportant un élément aléatoire . En 1939 Tinbergen
construisait un modèle des cycles économiques comportant 31 équations de comportement de 17 identités
. Chacune des équations était estimée au moyen de la méthode des moindres carrés, ce qui, nous le
verrons ne pouvait conduire qu’à des estimations inconsistentes. En 1944 Haavelmo posait les conditions
générales de solvabilité. Entre 1945 et 1950 Klein présentait ses premiers modèles dont la solution était
obtenue par la méthode du maximum de vraisemblance. En 1949 Koopmans déterminait les conditions de
solvabilité dans le cas d’un modèle linéaire. En 1954 Theil introduisait la méthode des doubles moindres
4
1.2. DÉFINITION DE L’ÉCONOMÉTRIE et Démarche éconétrique
carrés permettant des calculs effectifs. Toutefois la généralisation des modèles économétriques à équations
simultanées utilisée pour des modèles prévisionnels se heurta pendant longtemps au manque de moyens
informatiques. Le premier modèle utilisé à des fins prévisionnelles fut celui de Klein - Goldberger en
1955. D’autres modèles suivirent à la fin des années 50, en particulier celui de la Brookings Institution.
Avec l’avancée des techniques informatiques les années 60 et le début des années 70 virent une éclosion
de modèles macroéconomiques jouant un rôle important dans la prévision. Le modèle dit de Brookings
comprenait ainsi 400 équations. Aprés 1970 furent commercialisés des modèles standards comme celui dit
de Wharton. La stabilité relative de l’environnement économique jusqu’en 1974 leur assura un certain
succès.
L’analyse de la régression
L’importance des moyens consacrés à la résolution des problèmes d’identification laissa quelque peu
dans l’ombre la recherche sur la corrélation. Le principal obstacle théorique était le traitement de
l’autocorrélation des résidus aléatoires. En 1950 Durbin et Watson élaboraient leur célèbre test du même
nom qui test l’autocorrélation des résidus à l’ordre un. Les années 50 virent d’autre part l’apparition de
modèles à retards échelonnés avec les travaux de Koyck , d’Almon , de Cagan et de Friedman .
Les années 70 furent celles de la remise en cause radicale des modèles macroéconométriques élaborés
pendant les années 60. Une des raisons vient de ce que l’abandon du système de Bretton Woods
puis le quadruplement du prix du pétrole conduisirent à des bouleversements qui ne pouvaient être
anticipés par les modèles économétriques. Au niveau théorique il apparut rapidement que les modèles
macroéconométriques ne possédaient pas de fondations microéconomiques suffisamment solides. En
particulier Lucas montra dés 1972 que si les agents forment leurs anticipations sur une base endogène à
partir de leur expérience il n’est plus possible de considérer que les coefficients structurels des modèles
macroéconométriques restent inchangés. Ainsi toute mesure de politique économique doit conduire à un
changement dans le comportement des agents tant au niveau de la consommation que de l’investissement.
Ceci remet bien évidemment en cause les modèles macroéconométriques traditionnels qui ne distinguaient
pas les paramètres expliqués par des causes structurelles de ceux expliqués par la réponse aux mesures
de politiques économique. Une estimation de ces deux types de paramètres a été effectuée par Lucas et
Sargent qui les obtinrent directement comme solutions de modèles d’optimisation dynamique. Sur cette
base la recherche économétrique des années 80 porta sur les problèmes d’agrégation des préférences des
agents, d’inégalité dans la répartition de l’information et sur le processus d’apprentissage.
5
Chapitre 1. Introduction générale aux bases de l’économétrie
La critique de Lucas a ouvert la voie à des critiques plus radicales et a conduit certains économètres
comme Sims à dénier à la théorie toute pertinence dans l’estimation des modèles. L’approche même en
termes d’anticipations rationnelles est alors rejetée dans la mesure où elle nécessite une connaissance à
priori des délais. Plus fondamentalement les modèles macroéconométriques reposaient sur une distinction
entre variables "endogènes" et "exogènes". Cette distinction qui suppose une connaissance théorique à
priori est rejetée. Cette critique a conduit à retenir des modèles autorégressifs où n’existe pas à priori une
classification entre variables endogènes et exogènes. La question de l’utilité de tels modèles reste toutefois
controversée dans la mesure où ils ne fournissent pas une explication structurelle de l’activité économique.
6
Chapitre 2
ESTIMATION PONCTUELLE
X −→ Pθ
Exemple 2.1.1
Tailles des N étudiants de troisième année de sciences économiques de distribution normale de
moyenne µ et de variance σ 2 , N (µ, σ 2 ) et indépendantes, Xi , i = 1, . . . , N ).
2.1.2 Estimateur
On appelle estimateur de θ toute application mesurable Θ̂. C’est une fonction de variables aléatoires
observables, ne dépendant pas de paramètres inconnus.
Θ̂ : X n :−→ R (2.1)
La Méthode Heuristique ou Méthode des Moments permet d’obtenir les estimateurs suivants. L’esprance
µ = E(X), pour une loi quelconque P (µ), est estimée par la moyenne empirique sous les hypothèses de
la loi des grands nombres.
7
Chapitre 2. ESTIMATION PONCTUELLE
PN
i=1 Xi
µ̂ = = X̄ (2.2)
N
De même si on veut estimer la variance σ 2 = V (X), on utilise la variance empirique.
PN
i=1 (Xi − µ̂)2
σ̂ 2 = (2.3)
N
Il existe une méthode systématique de recherche d’estimateur, qui fera l’objet du troisième paragraphe.
2.1.3 Estimation
θ̂ = Θ̂(x1 , x2 , . . . , xN ) (2.4)
prise pour une telle fonction pour des réalisations particulières des variables aléatoires.
Exemple 2.1.2
µ̂ = 175; σ̂ 2 = 25
On distingue
telle que
P (X1 = x1 , . . . , Xn = xN ), si X est discrète ;
L(θ1 , . . . , θk ) = (2.5)
g(x1 , . . . , xN ), si |X| est continue.
Par définition, si les observations sont indépendantes et identiquement distibuées la fonction de
vraisemblance de l’échantillon (x1 , x1 , . . . , xN ) est :
N
Πi=1 P (Xi = xi ), si X est discrète ;
L(θ1 , . . . , θk ) = (2.6)
ΠNi=1 f (xi ), si X est absolument continue.
8
2.2. Fonction de Vraisemblance
Note
Les paramètres θi sont ici des paramètres de la vraisemblance ; en d’autres termes, elle n’est définie
qu’après l’observation des réalisations des variables ! La vraisemblance est une notion statistique, tandis
que la densité jointe est une notion de probabilité.
Le contenu intuitif est donc la probabilité que l’échantillon ait pris les valeurs qu’il a prises !
Définition 1
L’information (au sens de Fisher,) contenue dans un échantillon (X1 , X2 , . . . , Xn ) relative au vecteur
de paramètre θ est définie par :
" 2 #
∂ ln L(X1 , . . . , XN |θ
In (θ) = E (2.7)
∂θ
Théorème 1
Si le domaine X est indépendant de θ et si L vérifie les hypothèses de régularité suivantes (hypothèses
vérifiées par les lois usuellles, binomiale, poisson, normale, exponentielle,......) :
C2 Les conditions nécessaires pour prendre l’espérance des premières et deuxième dérivées de f (xi |θ)
sont satisfaites.
3
f (xi |θ)
C3 Pour toute valeur de θ, ∂∂θlnj ∂θ est inférieure à une fonction ayant une espérance finie. Cette
k ∂θ l
Alors
∂ ln L(θ1 , . . . , θk ; x1 , x1 , . . . , xN ) ∂f
IN (θ) = N I1 (θ) = N ∗ E =E
∂θ ∂θ
∂ 2 ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = −E
∂θ2
∂ ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN )
IN (θ) = V
∂θ
Sous les mêmes hypothèses de régularité de L et X indépendant de θ, un estimateur sans biais vérifie
l’inégalité
1
V (Θ̂) ≥ (2.8)
IN (θ)
1
IN (θ) est donc la borne inférieure d’un tel estimateur.
9
Chapitre 2. ESTIMATION PONCTUELLE
Définition 2
Un estimateur Θ̂ sans biais est dit efficace s’il vérifie
1
V (Θ̂) = (2.9)
IN (θ)
Il est donc dans ce cas, estimateur de variance, minimale et donc celui qui converge plus vite.
Remarque 1
L’inégalité de RAO-CRAMER exprime donc que, pour tout estimateur sans biais Θ̂ :
L’estimateur efficace vérifiant IΘ̂ = IN (θ) est donc que la quantité telle que la quantité d’information
qu’il contient est égale à celle contenue dans l’échantillon.
• L’inégalité précédente, peut être étendue aux estimateurs biaisés. Si E(Θ̂) = φ(θ) et sous les mêmes
conditions de régularité de L et X indépendant de θ
[ϕ0 (θ)]2
IΘ̂ (θ) ≥ (2.12)
IN (θ̂)
Définition 3
On appelle estimation du maximum de vraisemblance la valeur, θ̂ qui maximise pour
un échantillon donné, la vraisemblance L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ) ou la log vraisemblance,
ln L(θ1 , . . . , θk ; x1 , x2 , . . . , xN ). De cette estimation θ̂ = ϕ(x1 , x2 , . . . , xN ), on déduit l’estimateur du maxi-
mum de vraisemblance
Θ̂ = ϕ(X1 , . . . , XN )
2.3.1 Principe
On choisit comme estimation des paramètres, θi , les valeurs de ces paramètres qui maximisent
L(θ1 , . . . , θk ). Dans le cas discret, on choisit comme estimation les valeurs des θi qui donnent la plus
grande probabilté d’avoir obtenue le résultat exprérimental (x1 , x1 , . . . , xN ).
10
2.3. Méthode du Maximum de vraisemblance
P (θ1 , . . . , θk )
♠ Si
∂L ∂ 2 L ∂2L
, , ,
∂θi ∂θi2 ∂θi ∂θj2
existent ∀(i, j) ∈ (1, 2, . . . , k)2 , ∀(x1 , x2 , . . . , xN ) ∈ X n ,
∀(θ1 , θ2 , . . . θk ) ∈ Rk
∂ ln L
= 0 (2.13)
∂θi θ1 =θ̂1 ,...θk =θ̂k
.. .. ..
. . . (2.14)
∂ ln L
= 0 (2.15)
∂θi θ1 =θ̂1 ,...θk =θ̂k
∂ 2 ln L
mi,j = est définie négative
∂θi ∂θj
1. Θ est un ouvert de RK
2. il existe une mesure µ telle que Pθ0 << µ et sa densité f (y; θ0 ) est derivable par rapport θ
11
Chapitre 2. ESTIMATION PONCTUELLE
R
3. θ 7−→ f (y; θ)dµ(y) est dérivable par rapport à θ et
Z Z
∂ ∂f (y; θ)
f (y; θ)dµ(y) = dµ(y)
∂θ ∂θ
On a :
Z
∂ ln l(Y ; θ0 ) ∂ ln f (y; θ0 )
E = f (y; θ0 )dµ(y)
∂θ ∂θ
R ∂f (y;θ0 )
∂θ
= f (y; θ0 )dµ(y)
f (y; θ0 )
Z
∂
= f (y; θ)dµ(y) = 0
∂θ
| {z }
=1∀y
Z
1 ∂ ∂f (y; θ) 1 ∂ ∂f (y; θ)
E = f (y; θ)dµ(y)
f (y; θ) ∂θ0 ∂θ f (y; θ) ∂θ0 ∂θ
Z 2
∂ f (y; θ)
= dµ(y)
∂θ∂θ0
∂2
Z
= f (y; θ)dµ(y) = 0
∂θ∂θ0
| {z }
1∀y
Donc la fonction E ln f (y; θ) est maximale en θ0 . De plus l’inegalité est stricte si pour tout θ autre que
θ0 , ln f (y; θ) 6= ln f (y; θ0 ) sur un ensemble A tel que µ(A) 6= 0.
12
2.3. Méthode du Maximum de vraisemblance
2.3.3 Identification
La fonction g(θ) du paramètre est identifiable ssi pour tout couple (θ1 , θ1 ) de Θ tel que g(θ1 ) 6= g(θ2 )
et f (y; θ1 ) 6= f (y; θ2 ) sur un ensemble de valeurs de y de mesure µ non nulle.
Proposition 1 θ0 est identifiable ssi θ0 est l’unique θ ∈ Θ qui maximise E[ln f (Y ; θ)].
Preuve On a
f (y; θ)
E(ln f (y; θ)) − E(ln f (y; θ)) = E ln
f (y; θ0 )
Comme la fonction ln est concave, l’inégalité de Jensen1 s’applique pour montrer que
f (y; θ) f (y; θ)
E ln ≤ ln E
f (y; θ0 ) f (y; θ0 )
Z
f (y; θ)
= ln f (y; θ0 )dy
f (y; θ0 )
Z
= ln f (y; θ)dy
| {z }
=1∀y
= 0.
Exemple 2.3.1 Une urne contient 3 boules, qui peuvent être soit rouges, soit blanches.Le nombre
de boules rouges est inconnu. On tire deux boules sans remise. On obtient deux boules rouges. On
demande d’estimer le nombre de boules rouges que contient l’urne à l’aide du principe du maiximum
de vraisemblance.
Solution
La vraisemblance est donnée dans ce cas par la probabilité d’obtenir le résultat expérimental (tirage de
2 boules), considérée comme fonction des 4 valeurs possibles du paramètre inconnu (n=0,1,2,3).
L(0) = P (R1 ∩ R2 |n = 0) = 0
L(1) = (R1 ∩ R2 |n = 1) = 0
L(2) = P (R1 ∩ R2 |n = 2)
= P (R2 ∩ R1 |n = 2) ∗ P (R1 |n = 2)
1 2 1
= . =
2 3 3
Donc l’estimation est n̂ = 3
1 1Pour toute fonction concave f, Ef (X) ≤ f (EX)
13
Chapitre 2. ESTIMATION PONCTUELLE
Exemple 2.3.2 On demande d’estimer par maximum de vraisemblance le paramètre p d’une loi bino-
miale B(n, p)
Rappel
P (Y = r) = Cnr pr (1 − p)n−r
Solution
On peut écrire :
n
X
Y = Xi
i=1
où
Xi = 0 Sinon
Pn
– On observe les réalisations (x1 , . . . , xn ). Le nombre de succès observé est r = i=1 xi .
– On a :
f (x1 , . . . , xn |p) = pr (1 − p)n−r (car l’ordre des réalisations est donné)
– Pour maximiser cette fonction, il est commmode de maximiser son logarithme. On obtient la
fonction log-vraisemblance ci-dessous à maximiser :
dl(p) r n−r
= − =0
dp p 1−p
r n−r 1−p n−r
=⇒ = =⇒ =
p 1−p p r
1 n r
=⇒ − 1 = − 1 =⇒ p̂ =
p r n
14
2.3. Méthode du Maximum de vraisemblance
– On estime donc p par le pourcentage de succès observés. On vérifie si on a bien un maximum par
les conditions du second ordre :
d2 l(p) r n−r
=− 2 −
dp2 p (1 − p)2
On évalue le hessien au point p̂
d2 l(p) n2 n2 1 1
2
|p=p̂ = − − = −n2 ( + )<0
dp r n−r r n−r
On a bien un maximum.
Exemple 2.3.3 On vous demande d’estimer par maximum de vraisemblance les paramètres µ et σ 2 de
l’exemple [2.1.1] à partir d’un échantillon aléatoire (Xi , i = 1, . . . , n).
Solution
• En vertu de l’indépendance :
n n
2
Y
2 −n/2
Y 1
fX (x1 , . . . , xn |µ, σ ) = fXi (xi ) = (2πσ ) exp − 2 (xi − µ)2 (2.16)
i=1 i=1
2σ
• En considérant la fonction [2.16] comme fonction des paramètres inconnus, on obtient la fonction de
vraisemblance :
n
2 2 −n/2
Y 1
L(µ, σ ) = (2πσ ) exp − 2 (xi − µ)2 (2.17)
i=1
2σ
n
dl(µ, σ 2 ) n2 1 X
= − + (xi − µ̂)2 = 0 (2.20)
dσ 2 2σ̂ 2 2σ̂ 4 i=1
15
Chapitre 2. ESTIMATION PONCTUELLE
Pour vérifier que les estimateurs maximisent la log-vraisemblance on doit montrer que la matrice
Hessienne des dérivées secondes évaluées aux valeurs estimées est définie négative (cf cours de Math3
Mr. Ly)
Les dérivées partielles secondes valent :
∂ 2 l(x, θ) n
= −
∂µ2 σ2
N
∂ 2 l(x, θ) n 1 X
= − − (xi − µ)2
∂(σ 2 )2 (σ 2 )2 (σ 2 )3 i=1
N
∂ 2 l(x, θ) 1 X
= (xi − µ)
∂(σ 2 )∂µ σ 2 i=1
− σ̂n2
0
H=
0 − 2(σ̂n2 )2
Cette matrice est définie négative car toutes ses valeurs propres sont négatives donc on a bien un
maximum.
Définition 4 Un estimateur θ̂ de θ est dit sans biais si l’espérience de θ̂ est égale à la vraie valeur θ :
E(θ̂) = θ
Pour un estimateur sans biais, le risque quadratique, est égale à sa variance. On dit qu’un estimateur θ̂2
est préférable a un estimateur θ̂2 si R(θ̂2 , θ) << R(θ̂1 , θ)) pour tout θ.
Exemple 2.4.1 Soit un échantillon aléatoire (Xi , i = 1, . . . , n) avec E(X) = µ pour tout i et V (Xi ) = σ 2
pour tout i. On va montrer que :
PN
i=1 Xi
µ̂ = X̄ = (2.23)
N
PN
− X̄)2
i=1 (Xi
s2 = (2.24)
N −1
sont sans biais.
16
2.4. PROPRIÉTÉS DES ESTIMATEURS
La Variance
" N
# " N
#
X 2 X
Xi2 2
E Xi − X̄ = E − 2Xi X̄ + X̄
i=1 i=1
" N N N
#
X X X
= E Xi2 −2 Xi X̄ + X̄ 2
Donc
N
! N
X X 2N (N − 1) 2
E Xi2 = E(Xi2 ) = N (σ 2 + µ) + µ
i=1 i=1
2
= N σ 2 + N µ2 + N 2 µ2 − N µ2 = N (σ 2 + N µ2 )
P
1 N
Donc NE i=1 Xi2 = σ 2 + N µ2 , et :
P
N
Xi2
" N
# N
!
X 2 X E i=1
E Xi − X̄ = E Xi2 −
i=1 i=1
N
= N (σ + N µ2 ) − σ 2 − N µ2 = (N − 1)σ 2
2
donc
Pn
(Xi − X̄)2 1
E(s2 ) = E i
= (N − 1)σ 2
n−1 N −1
= σ2
17
Chapitre 2. ESTIMATION PONCTUELLE
∂g(θ̂0 ) ∂g(θ̂0 )0
V(θ̂) >> I(θ̂ 0 )
∂θ0 ∂θ
Preuve. La condition d’estimateur sans biais s’écrit :
Z
g(θ̂0 ) = E(θ̂) = θ̂(y)f (y; θ0 )dy
D’où en différentiant :
Z
∂g(θ̂0 ) ∂f (y; θ0 )
= E(θ̂) = θ̂(y) dy
∂θ ∂θ0
∂ ln f (Y ; θ0 )
= E θ̂(y)
∂θ0
∂ ln f (y; θ0 )
= Cov θ̂(y),
∂θ0
h i
∂ ln f (Y ;θ0 )
parce que E ∂θ 0 =0
En appliquant l’inégalité de Schwartz2
−1
∂ ln f (y; θ0 ) ∂ ln f (y; θ0 ) ∂ ln f (y; θ0 )
V(θ̂(y)) − Cov θ̂(y), V Cov , θ̂(y) >> 0
∂θ0 ∂θ0 ∂θ0
on a le résultat annoncé.
Définitions 1 Un estimateur sans biais est efficace si sa matrice de variance-covariance atteint la borne
de Rao Cramer.
Pour établir les propriétés asymptotiques de l’EMV nous omettrons les variables explicatives Xi . Il est
facile d’étendre les résultats au cas d’un modèle conditionnel. Soit donc un échantillon de N réalisations
de N variables Y1 , . . . , YN telles que :
3. La vraie valeur du paramètre θ0 est identifiable, i.e. θ0 est l’unique maximum global de
Z
E(ln f (Yi ; θ0 )) = ln f (Yi ; θ0 ))f (Yi ; θ0 ))dµ(y) (2.25)
4. La log-vraisemblance
N
X
l(y; θ0 ) = f (Yi ; θ0 ) (2.26)
i=1
18
2.4. PROPRIÉTÉS DES ESTIMATEURS
1
5. La log-vraisemblance est telle que N l(y; θ0 ) converge en probabilité vers E(ln f (y; θ0 )) uniformement
en θ au moins sur un voisinage deθ0 . (C’est la condition qui est généralement la plus difficile a
vérifier.)
Proposition 3 Sous les conditions de régularité précédentes, et si Θ est compact, il existe une suite
d’estimateurs du maximum de vraisemblance convergeant vers θ0 en probabilité.
Preuve
l(y; θ0 ) étant continue sur un compact, admet un maximum global θ̂. Comme la convergence en
1
probabilité de N l(y; θ0 ) vers E(f (Yi ; θ0 )) est acquise en vertu de la loi forte des grands nombres, et de plus
uniforme en θ, alors θ̂ = argmaxθ N1 l(y; θ0 ) converge en probabilité vers θ0 = argmaxθ ln f (Yi ; θ0 )
Proposition 4 Sous les conditions de régularité 1-5, si Θ est d’intérieur non vide et si θ0 appartient
a l’intérieur de Θ, alors il existe une suite de maxima locaux de la log-vraisemblance convergeant en
probabilité vers θ0 . Si, de plus la vraisemblance est dérivable, il existe une suite de solutions des équations
de vraisemblance qui converge en probabilité vers θ0 .
Preuve Soit v(θ0 , r) une boule fermée centrée autour de θ0 , de rayon r > 0, et strictement contenue dans
Θ. En vertu du théorème précédent, il existe une suite de solutions θ̃ au problème contraint :
max l(y; θ)
θ
qui converge en probabilité vers θ0 . Comme la convergence implique que, pour N assez grand, θ̃N se trouve
a l’intérieur de v(θ0 , r), il correspond bien a un maximum local et satisfait les conditions du premier ordre
(équations de vraisemblance).
Remarque 4 Lorsque Θ est ouvert, la suite convergente de maxima locaux peut ne pas être une suite de
maxima globaux.
Proposition 5 Sous les conditions 1-5 de régularité, si Θ est d’intérieur non vide et θ0 appartient a
l’intérieur de Θ , si la log-vraisemblance l(θ) est deux fois continuement différentiable dans un voisinage
ouvert de θ0 , et si la matrice d’information de Fisher pour une observation :
2
∂ ln f (Yi ; θ)
I(θ0 ) = −E
∂θ∂θ0
existe et est inversible, alors une suite θ̂ de maxima locaux convergente est telle que
√
N (θ̂ − θ) 7→ N (0, I(θ0 )−1 )
19
Chapitre 2. ESTIMATION PONCTUELLE
ou encore
N
1 X ∂ ln f (Yi ; θ) ∂ ln f (Yi ; θ)
I(θ̂) =
N i=1 ∂θ ∂θ0
Preuve (Idée)
θ̂ satisfait les équations de vraisemblance :
∂l(y, θ̂)
=0
∂θ
D’où −1
√ 1 ∂ 2 l(y, θ0 )
1 ∂l(y, θ0 )
N (θ̂ − θ0 ) ' √
N ∂θ∂θ0 N ∂θ
Or
N
1 ∂ 2 l(y, θ0 ) 1 X ∂ 2 ln l(y, θ0 )
2
∂ ln l(y, θ0 )
=− 7−→ −E = I(θ0 )
N ∂θ∂θ0 N i=1 ∂θ∂θ0 ∂θ∂θ0
et de variance
∂ ln l(yi , θ0 )
V = I(θ0 )
∂θ
√
Il s’ensuit donc que N (θ̂ − θ0 ) converge vers une variable aléatoire normale, centrée, et de variance :
h√ i
V N (θ̂ − θ0 ) = I(θ0 )−1 I(θ0 )I(θ0 )−1 = I(θ0 )−1
Il existe trois tests qui sont construits à partir de la méthode du maximum de vraisemblance qui sont
équivalents asymptotiquement.
1. Le Test de Wald
20
2.4. PROPRIÉTÉS DES ESTIMATEURS
Le Test de Wald
H0 = θ = θ0
H1 = θ 6= θ0
Ainsi
√ √
N (θ̂ − θ)0 Iθ−1
0
N (θ̂ − θ) ∼ χ2 (k) = W
où :
n
1 X ∂l(y; θ)
Iθ0 =−
N i=1 ∂θ∂θ0
θ0
k le nombre de paramètres.
Ce test est identique au test de Fisher utilisé dans le cas des moindres carrés linéaires. Nous utilisons
la convergence uniforme de θ̂ vers θ0 pour obtenir plimIθ̂ = Iθ0 . On réécrit la statistique :
√ √
N (θ̂ − θ)0 Iθ̂−1 N (θ̂ − θ) ∼ χ2 (k) = W
Le test LM est basé sur le modèle contraint. On suppose que la vraie valeur θ0 maximise la
vraisemblance.
N
∂l(y; θ) X ∂ ln f (y; θ)
= =0
∂θ θ0 ∂θ
i=1 θ0
Maintenant
N
1 ∂l(y; θ) 1 X ∂ ln f (y; θ)
√ = √ θ0 ∼ N (0, I(θ0 )
N ∂θ θ0 N i=1 ∂θ
ce qui implique que l’hypothèse nulle peut être testée en utilisant le score évalué au point θ0 . La statisitque
de LM devient :
0
1 ∂l(y; θ) −1 1 ∂l(y; θ)
LM = N √ I(θ̂) √ ∼ χ2 k si N → ∞
N ∂θ N ∂θ
En grand échantillon on utilise le fait que plimI(θ̂) = I(θ0 ) pour réécrire LM sous H0
0
1 ∂l(y; θ) −1 1 ∂l(y; θ)
LM = N √ I(θ0 ) √ ∼ χ2 k si N → ∞
N ∂θ N ∂θ
21
Chapitre 2. ESTIMATION PONCTUELLE
Remarque 5 Le test LM est appelé Multiplicateur de Lagrange parce qu’il est contruit à partir du
Lagrangien du problème de maximisation sous contrainte θ = θ0
Lagrangien : l(y; θ) − λ0 (θ − θ0 )
Comme dans le cas du test LM, il est construit sous H0 . On fait un développement de Taylor autour
de θ̂ au second ordre :
∂l(y; θ) 1 ∂ 2 l(y; θ)
l(θ0 ) = l(θ̂) + |θ̂ (θ̂ − θ0 ) + (θ̂ − θ0 )0 |θ∗ (θ̂ − θ0 )
∂θ 2 ∂θ∂θ0
par construction, θ∗ est une valeur intermédiaire entre θ̂ et θ0 telle que :
k θ0 k≤k θ∗ k≤k θ̂ k
√ 1 ∂ 2 l(y; θ) √
⇒ −2[l(θ0 ) − l(θ̂)] = N (θ̂ − θ0 )0 − 0
|θ ∗ N (θ̂ − θ0 )
N ∂θ∂θ
On définit la statistique LR par :
√ √
LR = −2[l(θ0 ) − l(θ̂)] −→ N (θ̂ − θ0 )0 I(θ0 )−1 N (θ̂ − θ0 ) ∼ χ2 (k)
LM ⇐⇒ W ald ⇐⇒ LR
Définition 5
Un estimateur θ̂N de θ est dit convergent si et seulement si :
h i
lim P θ̂N − θ = 0∀ > 0; on écrit plimθ̂N = θ
Nous supposons toutes les conditions de régularité pour l’existence, l’homogénéité et la normalité
asymptotique de l’estimateur du maximum de vraisemblance (e.m.v). Les hypothèses d’intérêt sont
données par :
H0 : g(θ0 ) = 0
H1 : g(θ0 ) 6= 0
22
2.4. PROPRIÉTÉS DES ESTIMATEURS
∂g(θ0 )
où g(θ0 ) : Rp −→ Rr et le rang de ∂θ est r
Test de Wald
Proposition 6
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
W = ng (θ̂) I(θ)−1 g(θ̂) ∼ χ2 (k) sous H0
∂θ ∂θ
∂ 2 f (Y |X;θ
où I = −E ∂θ∂θ 0 et I(θ)−1 son inverse évalué à θ = θ̂
√
N (θ̂ − θ0 ) ∼ N (0; I(θ)−1 ) (2.27)
∂g(θ̂)
g(θ̂) = g(θ0 ) + (θ̂ − θ0 ) + ◦p (1)
∂θ0
√ ∂g(θ̂) √
n g(θ̂) − g(θ0 ) = n(θ̂ − θ0 ) + ◦p (1) (2.28)
∂θ0
En combinant [2.27] et [2.28] on obtient
!
√ ∂g(θ̂) ∂g 0 (θ̂)
n g(θ̂) − g(θ0 ) −→ N 0, 0
I(θ)−1 (2.29)
∂θ ∂θ
La statistique en [2.31] n’est utilisable pas en pratique puisque elle dépend du paramètre inconnu.
Toutefois, nous pouvons approximer régulièrement les termes dans le crochet en évaluant par θ̂. Donc,
!−1
∂g(θ̂) ∂g 0 (θ̂)
W = ng 0 (θ̂) I(θ̂)−1 g(θ̂) ∼ χ2 (k) sous H0 (2.32)
∂θ ∂θ
– Un test asymptotique qui rejette l’hypothèse nulle avec la probabilité un, quand l’hypothèse
alternative est vraie est appelé un test cohérent. A savoir, un test cohérent a une puissance
asymptotique égale à 1.
23
Chapitre 2. ESTIMATION PONCTUELLE
– Un argument heuristique est que si l’hypothèse alternative (H1 ) est vraie, au lieu de l’hypothèse
nulle alors : g(θ̂) −→ g(θ0 ). Donc
!−1
0 ∂g(θ̂) ∂g 0 (θ̂)
ng (θ̂) I(θ̂)−1 g(θ̂)
∂θ ∂θ
avec In = nI
– Une forme tout à fait commune de l’hypothèse nulle est la restriction à zéro sur un sous-ensemble
de paramètres, c.-à-d.,
H0 : θ 1 = 0
H1 : θ 1 6= 0
alors
−1
I 11 (θ̂) = I11 (θ) − I12 (θ)I22 (θ)−1
par la formule de l’inverse de matice partitionnée. I 11 (θ̂) est I 11 (θ) évaluée à l’estimateur du
maximum de vraisemblance.
24
2.5. Test LM ou test du Score
∂l(θ̃) ∂g 0 (θ̃)
+ λ̃ = 0 (2.33)
∂θ ∂θ
g 0 (θ̃) = 0 (2.34)
1 ∂l(θ̃) ∂l(θ̃)
LM = I(θ̃)−1 (2.35)
n ∂θ0 ∂θ
1 ∂g(θ̃) ∂g(θ̃)
= λ̃ 0
I(θ̃)−1 λ̃ ∼ χ2 (r) sous H0 (2.36)
n ∂θ ∂θ
√ √ ∂g(θ̃) √
ng(θ̂) = ng(θ0 ) +
0
I(θ̃0 ) n(θ̂ − θ0 ) (2.37)
∂θ
√ √ ∂g(θ̃) √
ng(θ̃) = ng(θ0 ) + 0
I(θ̃0 ) n(θ̂ − θ0 ) (2.38)
∂θ
√ ∂g(θ̃) √
ng(θ̂) = n(θ̂ − θ0 ) (2.39)
∂θ0
∂l(y;θ̂) ∂l(y;θ̃)
En d’autre termes en prenant le développement de Taylor à l’ordre 1 autour de θ0 de ∂θ et ∂θ
De même
1 ∂l(y; θ̃) ∂l(y; θ0 ) √
√ = − I(θ0 ) n(θ̃ − θ0 ) (2.42)
n ∂θ∂ ∂θ
Considérant le fait que θ̂ annule le score (condition du premier ordre de maximisation sans contrainte du
problème) en prenant la différence entre [2.40] et [2.42] nous obtneons
1 ∂l(y; θ̃) √ √
√ = −I(θ0 ) n(θ̃ − θ̂) = I(θ0 ) n(θ̂ − θ̃) (2.43)
n ∂θ∂
25
Chapitre 2. ESTIMATION PONCTUELLE
Ainsi
√ 1 ∂l(y; θ̃)
n(θ̂ − θ̃) = I(θ0 )−1 √ (2.44)
n ∂θ
De [2.39] et [2.45] nous obtenons :
Par conséquent
0
−1 !
λ̃ d ∂g(θ0 ) −1 ∂g (y; θ0 )
√ →N 0, I(θ 0 ) (2.48)
n ∂θ0 ∂θ
En utilisant la forme quadratique des variables gaussiennes nous obtenons
λ̃0 ∂g(θ0 ) 0
−1 ∂g (y; θ0 ) d
I(θ 0 ) λ̃ → χ2 r (2.49)
n ∂θ0 ∂θ
Les statistiques [2.49] et [2.50] ne sont pas ulitistables directement en pratique car la matrice d’information
dépend du paramètre inconnu θ0 . On évalue cette matrice à θ̃ estimateur obtenu à partir du modèle
contraint. L’approximation de I(θ0 ) est obtenue par :
n
! n
!
1 X ∂ 2 l(y|x; θ̃) X ∂l(y|x; θ̃) ∂l(y|x; θ̃)
I(θ̃) = − ou
n i=1 ∂θ∂θ0 i=1
∂θ ∂θ0
26
2.5. Test LM ou test du Score
Remarque 7 Cette expression de la statistisque LM fait intervenir les matrices de projection. Si on pose
1 |x1 ;θ̃) ∂l(y2 |x2 ;θ̃)
X = [ ∂l(y∂θ 0 , ∂θ 0 , . . . , ∂l(yn∂θ|x0 n ;θ̃) ] et e = [1, 1, . . . , 1]0
LM = e0 X(X 0 X)−1 X 0 e
Si on note Ru2 le coefficient de détermination non centré de la regression de la constante sur les scores
alors LM devient :
e0 X(X 0 X)−1 X 0 e
LM = nRu2 = e0 e
e0 e
Ceci est tout à fait un résultat intéressant puisque le calcul de la statistique LM n’est rien d’autre qu’une
régression MCO. Nous régressons la constante sur les scores évalués à e.m.v contraint et calculons le Ru2
non centré et le multiplions ensuite par le nombre d’observations(n) pour devenir LM statistique.
La statistique LM est aussi asymptotiquement consistant.
De [2.49] et [2.50]
−1
∂g 0 (θ0 )
0 ∂g(θ0 )
W = ng (θ̂) I(θ 0 ) g(θ̂) = LM
∂θ0 ∂θ
!−1
∂g(θ̂) ∂g 0 (θ̂)
→ ng 0 (θ̂) I(θ 0 ) g(θ̂)
∂θ0 ∂θ
Test LR
Proposition 8
LR = 2 l(θ̂) − l(θ̃) ∼ χ2 (r) (2.51)
Preuve
Nous considérone le développement de Taylor de l(θ̂) etl(θ̃) autour de θ0 . Sous H0 et en ignorant les
termes dominés stochastiquement nous obtenons :
2
∂l(θ̂) 1 0 ∂ l(θ̂)
l(θ̂) = l(θ0 ) + (θ̂ − θ 0 ) + (θ̂ − θ 0 ) (θ̂ − θ0 ) (2.52)
∂θ0 2 ∂θ∂θ0
2
1 ∂l(θ̂) √ 1√ 0 1 ∂ l(θ̂)
√
= l(θ0 ) + √ n( θ̂ − θ 0 ) + n( θ̂ − θ 0 ) √ n(θ̂ − θ0 ) (2.53)
n ∂θ0 2 n ∂θ∂θ0
∂l(θ̂) 1 ∂ 2 l(θ̃)
l(θ̃) = l(θ0 ) + 0
(θ̃ − θ0 ) + (θ̃ − θ0 )0 (θ̃ − θ0 ) (2.54)
∂θ 2 ∂θ∂θ0
2
1 ∂l(θ̃) √ 1√ 0 1 ∂ l(θ̃)
√
= l(θ0 ) + √ 0
n( θ̃ − θ 0 ) + n( θ̃ − θ 0 ) √ 0
n(θ̃ − θ0 ) (2.55)
n ∂θ 2 n ∂θ∂θ
27
Chapitre 2. ESTIMATION PONCTUELLE
En prenant la différence des deux systèmes d’équations ci-dessus (2.52-2.53) et (2.54-2.55) multipliée par
2 on obtient :
2
1 ∂l(θ̂) √ 1√ 0 1 ∂ l(θ̂)
√
2 l(θ̂) − l(θ̃) = √ n(θ̂ − θ̃) + n(θ̂ − θ 0 ) √ n(θ̂ − θ0 )
n ∂θ0 2 n ∂θ∂θ0
√ 1 ∂ 2 l(θ̃) √
− n(θ̃ − θ0 ) n(θ̃ − θ0 )
n ∂θ∂θ0
→ 2n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) − n(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ0 )
Finalement
LR = (θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) (2.56)
Noter que
(θ̂ − θ0 )0 I(θ0 )(θ̂ − θ̃) = (θ̂ − θ̃)0 I(θ0 )(θ̂ − θ0 )
1 ∂l(θ̂) ∂l(θ̂) 1
= √ 0
I(θ0 )−1 I(θ0 )I(θ0 )−1 √
n ∂θ ∂θ n
1 ∂l(θ̂) ∂l(θ̂)
= I(θ0 )−1 = LM sous H0
n ∂θ0 ∂θ
3. Comme nous venons de lé démontrer ci-dessus les tests de Wald, LM et LR sont asymptotiquement
équivalents.
28
2.5. Test LM ou test du Score
yi = xi β + i
n n 1
l(y|x; β, σ 2 ) = − ln(σ 2 ) − ln(2π) − 2 (y − Xβ)0 (y − Xβ)
2 2 2σ
β̂ = (X 0 X)−1 X 0 y
1
σ̂ 2 = (y − Xβ)0 (y − Xβ)
n
On pose
∂g(β̂) ∂g(β̂)
g(β̂) = Rr×p β̂p×r − γ = R; =0
∂β ∂σ 2
La statistique de test de Wald est donné d’après la proposition 6 par :
" 0 #
0 R −1 R
W = n(Rr×p β̂p×r − γ) I (θ̂) (Rr×p β̂p×r − γ) (2.57)
0 0
1 −1
(Rr×p β̂p×r − γ)0 R0 (X 0 X)−1 R (Rr×p β̂p×r − γ) ∼ χ2 (r) sous H0
= (2.58)
σ2
1 1
σ̃ 2 − σ̂ 2 = (y − X β̃)0 (y − X β̃) − (y − X β̂)0 (y − X β̂)
n n
1 0
= (X β̃ − X β̂) (X β̃ − X β̂)
n
1 1 −1
(β̃ − β̂)0 (X 0 X)(β̃ − β̂) = (Rr×p β̂p×r − γ)0 R0 (X 0 X)−1 R
= (Rr×p β̂p×r − γ)
n n
−1
si β̃ = β̂ + X 0 X)−1 R0 X 0 X)−1 R
29
Chapitre 2. ESTIMATION PONCTUELLE
Donc
0 −1
2 2
n(σ̃ − σ̂ ) Rr×p β̂p×r − γ R0 X 0 X)−1 R Rr×p β̂p×r − γ
W = =
σ̂ 2 1
X β̂)0 (y − X β̂)
n (y −
0
−1
Rr×p β̂p×r − γ R0 X 0 X)−1 R Rr×p β̂p×r − γ /r
nr nr
= h i = F
0
(y − X β̂) (y − X β̂) /n − K n − K n − K
2 0 0 −1 −1
λ̃ = − R X X) R (γ − Rβ̂)
σ2
4 0 0 −1 −1
λ̃ ∼ N (0, R X X) R
σ̃ 2
si (γ − Rβ̂) ∼ N 0, σ̃ 2 R0 (X 0 X)−1 R .
σ̃ 2 0 0 0 −1 −1
LM = λ̃ R X X) R λ̃
4
1 −1
(Rr×p β̂p×r − γ)0 R0 X 0 X)−1 R
= 2
(Rr×p β̂p×r − γ)
σ
n(σ̃ 2 − σ̂ 2 ) n n n
= = σ̃ 2
= σ̂ 2
=
σ̂ 2 1 − 1 + σ̃2 −σ̂2 1 + σ̃2 −σ̂2 1 + (n−k)
rF
Pour calculer la statistique LR on doit calculer la valeur de la log vraisemblance sous H1 et sous H0
n n 1
Sous H1 : l(θ̂) = − ln(σ̂ 2 ) − ln(2π) − (y − X β̂)0 (y − X β̂)
2 2 2σ̂ 2
n n n 1
2
= − ln(σ̂ ) − ln(2π) − (y − X β̂)0 (y − X β̂)
2 2 2σ̂ 2 n
n n n 2
= − ln(σ̂ 2 ) − ln(2π) − σ̂
2 2 2σ̂ 2
n n n
= − l(θ̂) − ln(2π) −
2 2 2
n n 1
Sous H0 : l(θ̃) = − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)0 (y − X β̃)
2 2 2σ̃ 2
n n n 1
= − ln(σ̃ 2 ) − ln(2π) − (y − X β̃)0 (y − X β̃)
2 2 2σ̃ 2 n
n n n 2
= − ln(σ̃ 2 ) − ln(2π) − σ̃
2 2 2σ̃ 2
n n n
= − ln(σ̃ 2 ) − ln(2π) −
2 2 2
Ainsi
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 ))
2 2
30
2.6. Exercices
n n
LR = 2(l(θ̂) − l(θ̃)) = 2(− ln(σ̂ 2 ) + ln(σ̃ 2 )
2 2
σ̃ 2
2 2
σ̃ − σ̂ 2
σ̃
= n(ln = n 1 − 1 + ln = n 1 + ln
σ̂ 2 σ̂ 2 σ̂ 2
rF
= n 1 + ln
n−K
x
≤ ln(1 + x) ≤ x ∀x > −1
1+2
rF
Soit x = ln n−K en appliquant l’inéqualité ci-dessus on :
LM ≤ LR ≤ W en dimension finie
yi = 6 + i i = 1, . . . , 50 (2.60)
1 1
f (xi ) = exp(− (y − µ2 )) (2.61)
2π 2
H0 : µ = 3 vs H1 : µ = 3
2.6 Exercices
2.6.1 Exercie 1
Un échantillon aléatoire d’observations indépendantes est généré par une fonction de distribution
ci-dessous :
f (y; β) = β exp(−βy) avec β > 0; y > 0
31
Chapitre 2. ESTIMATION PONCTUELLE
P
4. On suppose que n= 100 et yt = 25, calculer la valeur de β̂
H0 : β = β0 = 1
H1 : β 6= β0 = 1
2.6.2 Exercie 2
1 x2
f (x; θ) = √ exp(− )
2πθ 2θ
−∞ < x < ∞ θ > 0
H0 : θ = 0
H1 : θ 6= 0
F (y; θ1 , θ2 ) = 1 − exp(−θ1 y θ2 )
32
2.6. Exercices
4. On suppose dans cette partie θ̂2 = 1. Le modéle est alors uniquement paramètre par θ̂1 . Le modèle
est-il exponentiel ? Si oui, expliciter une statistique exhaustive.
6. Quel est l’estimateur du maximum de vraisemblance θ̂1 de θ̂ ? Est-il sans biais, y a-t-il surestimation
ou sous-estimation systématique ?
33
Chapitre 2. ESTIMATION PONCTUELLE
34
Chapitre 3
La loi de la demande :
X = a − bPX
L’objectif de ce chapitre consiste à estimer les paramètres de régression du modèle (a et b) à des fins
d’analyse ou de prévision. Une telle estimation peut servir à répondre à des questions de politique
économique telles :
a) comment faut-il modifier les dépenses de l’Etat pour réduire le chômage de x%.
Pour réduire le taux d’inflation de y% :
c) Une politique de soutien du prix d’un produit agricole doit-elle prendre en compte la forme d’un prix
garenti aux producteurs (et l’achat de toute production invendue)ou d’un subside à ces producteurs ?
Les coûts respectifs de ces deux politiques alternatives dépendront de l’élasticité de la demande,
qui peut être estimée à partir des données de X et PX . Les égalités précédentes ne seront jamais
exactement vérifiées par les données sur les différentes variables des modèles. Pour ces raisons on
ajoute un terme d’erreur aléatoire de mesure, d’agrégation à chaque modèle. Ces erreurs ne peuvent
être expliquée par un modèle déterministe. Aux fonctions précédentes, on ajoute un terme d’errteur
aléatoire ut : La fonction de consommation
Ct = a + bYt + ut
35
Chapitre 3. Régression linéaire empirique
La loi de la demande :
X = a − bPX + ut
yt = a + bxt +t (3.1)
Les hypothèses
Les estimateurs â etb̂ dépendent de yt donc de ut . Ce sont des variables aléatoires, et nous aurons
besoin des moments de leur distribution. Il faut donc faire des hypothèses sur ut .
E(ut |xt ) = 0 ∀t
Interprétation
Si cette hypothèse est violée, ler terme d’erreur aurait une composante systématique, qui aurait dû
être incluse dans la partie non aléatoire de l’équation de la régression. Le modèle sera donc mal
spécifié.
H2 Homocédasticité :
V (ut ) = σ 2
Interprétation Les erreurs sont de variance finie et égale à σ 2 . Si telle n’est le cas on parle
d’hétérocédasticité du modèle.
Exemple de modèle de violaation de H2
Modèle de regréssion dont les observations sont des moyennes calculées à partir des nombres
d’observations différents. Modèle de séries financières.
36
3.1. Description du problème et exemples économiques
Exemple de violation de H3
Données spatiales, autocorrélation des residus (ut = ρut−1 + νt ). Si ces trois hypothèses sont
satisfaites, on dit que le terme d’errur est un bruit blanc, noté BB
Exemple de violation de H4
Ct = a + bYt + ut (3.2)
avec
Yt = Ct + It (3.3)
H5 xt pend au moins deux valeurs différentes. Si cette hypothèse n’est pas vérifiée, nous n’aurons pas un
problème de régression : en effet a + bxt serait une constante et yt = a + bxt + ut serait constante
à un terme aléatoire. Nous aurions alors un modèle yt = µ + ut avec E(yt ) = µ
Si ces différentes hypothèses sont satisfaites nous cherchons les paramètres â et b̂ de la droite de ŷt = â+b̂xt
qui approchent le mieux la dépendance entre yt et xt , celle qui s’écarte le moins du nuage de points (xt , yt ).
Les critères utilisés pour estimer les paramètres de régression (a et b), sont tels qu’il faut en moyenne,
minimiser l’écart entre yt et ŷt . Il faut donc que la variable ût = yt − ŷt , les résidus estimés, soit minimale
pour tout t. On retient comme critères :
min max |ût | (3.4)
â,b̂ t
X
min |ût | (3.5)
â,b̂ t
X
min û2t Critère de la Méthode des moindres carrés (3.6)
â,b̂ t
L’équation [3.7] est une hypothèse tandis que [3.9] est une identité !
37
Chapitre 3. Régression linéaire empirique
T
∂SCR(â, b̂) X
= −2 yt − â − b̂xt xt = 0 (3.11)
∂ b̂ t=1
Elles impliquent les équations normales suivantes
T
X T
X
yt − T â − b̂ xt = 0 (3.12)
t=1 t=1
T
X T
X
yt xt − T âxt − b̂ x2t = 0 (3.13)
t=1 t=1
â = ȳ − b̂x̄ (3.14)
avec
T T
1X 1X
x̄ = xt et ȳ = yt
T t=1 T t=1
En remplaçant la valeur â, équation [3.14], dans [3.13], il vient :
T
X
yt − ȳ − b̂(xt − x̄) xt = 0 (3.15)
t=1
avec
(xt − x̄)
ωt = PT 2
t=1 (xt − x̄)
38
3.1. Description du problème et exemples économiques
T
X
ωt = 0
t=1
T
X 1
ωt2 = PT
2
t=1 t=1 (xt − x̄)
T
X
ωt xt = 1
t=1
T
X
zt = 1
t=1
T T
X X 1 2
zt2 = − x̄ω t + x̄2 2
ω
t=1 t=1
T2 T
T T T
! T
!
X
2
X 1 2 X
2
X
2
zt = − x̄ ωt = 0 + x̄ ωt
t=1 t=1
T2 T t=1 t=1
Donc
T PT
X 1 x̄2 xt
zt2 = + PT = PT t=1
t=1
T t=1 (xt − x̄)
2 T t=1 (xt − x̄)2
T
X
zt xt = 0
t=1
T
X x̄
zt ωt = PT
t=1 t=1 (xt − x̄)2
Conditions du second ordre
La matrice Hessienne doit être définie positive
!
∂ 2 SCR(a,b) ∂ 2 SCR(a,b)
H= ∂a2 ∂a∂b (3.16)
∂ 2 SCR(a,b) ∂ 2 SCR(a,b)
∂b∂a ∂b2
P
2T 2 P xt
H= (3.17)
2 x2t
P
2 xt
∂ 2 SCR(a,b)
∂b2 > 0 et P
2T 2 P xt
|H| = P >0 (3.18)
2 xt 2 x2t
39
Chapitre 3. Régression linéaire empirique
Demonstration :
X X 2
|H| = 4T x2t − 4 xt
X
x2t = T (σx2 + x̄2 )
1X X
x̄ = xt =⇒ xt = T x̄
T
Donc
X X 2
x2t − 4 ∗ = 4(T 2 σx2 + x̄2 − T 2 x̄) = 4 ∗ T 2 σx2 > 0
|H| = 4 ∗ T xt
Exemple
Soient T=5 observation suivantes sur les yt et xt
xt 1 2 3 4 5
yt 2 4 5 7 10
28 15
â = − 1.9( ) = −0.1
5 5
40
3.1. Description du problème et exemples économiques
Variances
On a alors
hX i2
V (b̂) = E ωt ut
XT T
X −1 X
T
= E ωt2 u2t + ωt ωj ut uj
t=1 t=1 j=t+1
T
X
= ωt2 E(u2t )
t=1
T
X
= σ2 ωt2
t=1
σ2
= PT
t=1 (xt − x̄)2
puisque E(u2t ) = σ 2 et, E(ut uj ) = 0, ∀t 6= j
hX i2
V (â) = E(â − a)2 = E zt u t
T
X
2
= σ ωt2 par le même argument que précédemment
t=1
" #
x2t
P
2
= σ PT
T t=1 (xt − x̄)2
41
Chapitre 3. Régression linéaire empirique
Covariance
σ 2 x2t /T
P
E (â) = a et V (â) = PT −→ 0 si T → ∞
2
t=1 (xt − x̄)
x2t
P
sous la condition que limT →∞ T existe.
42
3.1. Description du problème et exemples économiques
ce qui implique : P P
â
PT x
P 2t
= P y t
xt xt b̂ xt yt
En notant
1 x1
1 x2
X=
.. ..
. .
1 xT
et
â
β̂ =
b̂
on obtient l’écriture matricielle :
Remarque 9
En multipliant (X 0 X)−1 par σ 2 on trouve la matrice de variances-covariances CV. On peut généraliser
l’écriture matricielle en ajoutant d’autres de variables à X. On obtient le modèle de régression multiple.
On note l’importance de H0 , non colinéarité des colonnes de X. Si H5 : xt = α pour tout t,
(xt − x̄) = 0, donc det(X 0 X) = 0 et les équations normales n’ont pas une solution unique.
P
Nous traiterons le cas particulier de ce thèorème. Une généralisation sera faite dans le cas de la
régression multiple.
Nous avons démontré que les estimateurs des moindres carrés sont sans biais et convergents. Sont-ils de
variances minimale ? La réponse est : oui, dans la classes des estimateurs sans biais. On parle destimateur
BLUE (Best Linear Unbiased Estimator en anglais)
Preuve de cette proposition
Un estimateur linéaire arbitraire de b peut :
X X
b̃ ct tyt = ct (a + bxt + ut
P P
une condition nécessaire et suffisante pour que E(b̃) = b pour tout ( a, b )est ct = 0 et ct xt = 1.Alors :
2 X 2 X
V (b̃) = E b̃ − b = E ct ut = σ 2 c2t
On va minimiser cette variance sous la contrainte E(b̃) = b et montrer que la solution est ct = ωt ).
Comme la minimisation de V (b̃) est équivalente à celle de V (b̃)/σ 2 le Lagrangien s’écrit :
X X X
L= c2t + λ1 ct + λ2 ct xt − 1
43
Chapitre 3. Régression linéaire empirique
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
∂L X X
=2 ct + T λ1 + λ2 xt = 0
∂ct
∂L X X X
xt = 2 ct xt + λ1 xt + λ2 x2t = 0
∂ct
P P
En utilisant les contraintes ct = 0, ct xt = 1
X
T λ 1 + λ2 xt = 0
X X
2 + λ1 xt + λ2 x2t = 0
L’inverse de la matrice des coefficients a déjà eté calculée ((X 0 X)−1 ). On peut donc calculer la solution
du système comme :
P 2
2x̄/ P(xt − x̄2 )
P P
λ1 1 −
= P Pxt xt 0
=
λ2 T (xt − x̄2 ) − xt T −2 −2/ (xt − x̄2 )
∂2L
= 2T > 0
∂c2t
Les variances et la covariance calculées dans les sections précédentes dépendent du paramètre inconnu
σ 2 . Une procédure naturelle serait de calculer la variance d’échantillon T1 (ût − ˆ¯ut2 , et de corriger un
P
X X
ût = (y − â − b̂xt ) = 0 condition du premier ordre.
44
3.1. Description du problème et exemples économiques
en vertu de la première équation normale (Section 1.3). Nous allons prouver que :
hX i
E u2t = (T − 2)σ 2
et que donc
1 X 2
s2 = ut
T −2
est un estimateur sans biais de σ 2 Nous avons :
ût = y − ȳ − −̂b̂xt
= ut − ū + (b − b̂)(xt − x̄)
Alors
X X 2
û2t = ut − ū + (b − b̂)(xt − x̄)
X X X
= (ut − ū)2 + (b − b̂)2 (xt − x̄)2 + 2 (b − b̂)(xt − x̄)(ut − ū)
Mais
X hX iX
ut − ū + (b − b̂)(xt − x̄) = (xt − x̄)2 ωt (ut − ū)
X
= (b̂ − b) (xt − x̄)
P P
puisque ωt (ut − ū) = ωt ut = b̂ − b
Donc
X X X X
û2t = (ut − ū)2 + (b − b̂)2 (xt − x̄)2 − 2(b − b̂)2 (xt − x̄)2
X X
= (ut − ū)2 − (b − b̂)2 (xt − x̄)2
Et donc
hX i
E (u2t = (T − 2)σ 2
Dons
û2t
P
σ̂ 2 = s2 =
T −2
45
Chapitre 3. Régression linéaire empirique
On peut interpréter la division par (T-2) de la manière suivante. Nous avions vu que pour obtenir un
estimateur sans biais de la variance, on devait diviser par T-1 la somme des carrés des déviations par
rapport à la moyenne. Cette division par (T-1) était en fait due à la présence d’une condition liant les
déviations par rapport à la moyenne : la somme de ces déviations est identiquement nulle. Dans le cas
qui nous occupe, nous avons deux conditions liant les résidus à savoir :
X X
ût = 0 et ût xt = 0
soit
SCT = SCE + SCR.
û2t
P
En guise d’étape préliminaire, démontrons une formule de calcul commode pour
Lemme 1
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2
Preuve
Donc
X X X X
û2t = (yt − ȳ)2 − 2b̂ (xt − x̄)(yt − ȳ) + b̂2 (xt − x̄)2
Mais
X X
(xt − x̄)(yt − ȳ) = b̂ (xt − x̄)2
donc
X X
û2t = (yt − ȳ)2 − b̂2 (xt − x̄)2
Pour prouver que SCT = SCE + SCR, il suffit alors de montrer que :
X X
b̂2 (xt − x̄)2 = ¯2
(ŷt − ŷ)
46
3.1. Description du problème et exemples économiques
et l’on a 0 ≤ R2 ≤ 1. Plus le R2 est proche de l’unité, plus grand est le pourcentage de la variance totale
expliquée par la régression, et meilleure est donc la qualité de l’ajustement. Mentionnons dès ‘ aprésent
une interprétation statistique plus fine du R2 .
Commentaires
– la statistique F̂ , dit de Fisher dui permet de tester la nullité de la pente, b=0, est égale au rapport
entre le carré moyen expliqué par la régression et le carré moyene résiduel. Ceci revient à tester :
H0 : b = 0 ou SCE = 0
vs
H1 : b 6= 0 ou SCE 6= 0
Pour un test de niveau α, on compare la statistique F̂ à la valeur dépassée anec une probabilité α
par une variable aléatoire distribuée suivant une loi de Fisher à (1,T-2) degrés de libertés. Cette
quantité, notée F(1,T −1,1−α) est le quantile d’ordre (1 − α) de cette loi de Fisher à (1,T-2) degrés
de libertés
– SCR est le minimum de la somme des carrés des résidus.
– SCE : est la quantité expliquée par la droite de régression par rapport au modèle où l’on ajuste
les données qu’avec une simple moyenne (ȳ), ce qui revient à faireune régression sur une droite de
pente nulle.
– SCT est utilisée pour le calcul de la variance empirique.
(T −2)R2
Nous démontrerons, en régression multiple, que si b = 0i.eSCE = 0, 1−R2 suit le carré d’une loi de
47
Chapitre 3. Régression linéaire empirique
Student avec T-2 degrés de liberté. Avec un seuil de signification α ,le R2 sera donc 2 "bon" si :
(T − 2)R2
> t2T −2,α/2
1 − R2
x̄ = 3
ȳ = 5.6
X
(xt − x̄)2 = 10
X
(yt − ȳ)2 = 37.20 = SCT
où les nombres entre parenthèses sont les estimations des écarts-types des coefficients estimés. On
peut aussi les présenter comme :
où les nombres entre parenthèses sont les rapports entre les coefficients estimés et les estimations de leurs
écarts-types. On appelle ces rapports les rapports t (t-ratios) ; ils nous serviront dans le cadre des tests
d’hypothèses.
L’interprétation du R2 est la suivante : 97% des fluctautions de yt sont expliquées par celles de xt
Exemple
1.9
tb̂ = = 9.88
0.192
48
3.1. Description du problème et exemples économiques
â et b̂ne sont que des estimateurs ponctuels de a et de b . Dans cette sous section, nous nous intéressons
à la probabilité du type :
où α est une constante appelée niveau de signification. Un tele probabilité doit se lire : "J’ai une probabilité
de de ne pas me tromper lorsque j’affirme que b est compris entre binf et bsup ". Les bornes binf et bsup
vont dépendre de b̂ et de sa variance.
Elles sont donc aléatoires, au même titre que b̂ . Elles dépendront aussi de la distribution de b̂ . Si
cette distribution est symétrique autour de b , l’intervalle [binf , bsup ] aura b̂ comme point médian. Ce sera
le plus petit intervalle ayant une probabilité 1 − α de contenir b . Il nous faut donc maintenant spécifier
la distribution de â et b̂, ce qui nécessite une hypothèse sur la distribution des erreurs ut . Si nous faisons
l’hypothèse de normalité :
H0 : ut ∼ N (0, σ 2
P P
â = a + zt ut et b̂ = b + ωt ut et seront normales, puisque ce sont alors des combinaisons linéaires
de variables normales indépendantes. Quelles seront alors les formes de ainf , ≤ asup , binf et ≤ bsup Si σ 2
etait connue, nous aurions
b̂ − b â − a
∼ N (0, 1) et ∼ N (0, 1)
σb̂ σâ
σ2
1 x̄
avec σb̂2 = P σâ2 = σ 2 +P
(xt − x̄)2 T (xt − x̄)2
Nous pourrions alors écrire, par exemple,
" #
b̂ − b
P −z α2 ≤ ≤ z α2 =1−α
σb̂
α
où z α2 est la valeur de la variable normale centrée réduite ayant une probabilité 2 d’être dépassée.
Nous aurions alors :
h i
P b̂ − z α2 σb̂ ≤ b ≤ b̂ + z α2 σb̂ = 1 − α
binf = b̂ − z α2 σb̂ et
≤ bsup = b̂ + z α2 σb̂
En pratique, σ 2 est inconnue. Que se passe-t-il lorsqu’on la remplace par son estimation sans biais
û2t
P
s2 = ?
T −2
49
Chapitre 3. Régression linéaire empirique
b̂ − b b̂ − b
= qP
σb̂ û2t P 1
T −2 (xt −x̄)2
q b̂−b
σ 2 ( P(x 1−x̄)2 ) N
= q Pt 2 =def
ût D
σ 2 (T −2)
N est une variable normale réduite. Nous prouverons rigoureusement plus loin que
P 2
ût
σ 2
est une variable χ2 avec T-2 degrés de liberté, indépendante de la variable N. Par définition, le rapport
N
D est alors une variable Student avec T-2 degrés de liberté
Donc :
b̂ − b â − a
∼ tT −2 et, de manière analogue ∼ tT −2
sb̂ sâ
et les intervalles de confiance sont donnés par :
h i
P b̂ − tT −2; α2 sb̂ ≤ b̂ + tT −2; α2 sb̂ = 1 − α
Pour tester :
H0 : b = b0 contre H1 : b 6= b0
Ce test n’est pas équivalent à une juxtaposition des deux tests t sur chaque coefficient de régression. Une
méthode bivariée s’impose, et nos intervalles de confiance deviennent des ellipses. En pratique, on passe
par la variable F de Fisher-Snedecor. La statistique à employer est :
Q/2
Fobs =
s
50
3.1. Description du problème et exemples économiques
avec
h X i
Q = T (â − a0 )2 + 2T x̄(b̂ − b0 ) + x2t (b̂ − b0 )2
Q est toujours positive ou nulle ; elle sera d’autant plus grande que â et b̂ diffèrent de a et b . Or, ce
sont bien les valeurs élevées d’une statistique F qui conduisent à rejeter l’hypothèse nulle. Par ailleurs,
une valeur élevée de s2 reflète une mauvaise qualité de l’ajustement statistique ; il est donc logique qu’elle
nous fasse hésiter à rejeter l’hypothèse H0 . En régression multiple, nous démontrerons que si H0 est
vraie, Fobs a la distribution F2,T −2 . On rejettera donc H0 si
T −2
Nous montrerons aussi que F est égale à 2T fois la statistique de Wald pour tester l’hypothèse
H0 : (a, b) = (a0 , b0 ) contre H0 : (a, b) 6= (a0 , b0 ). Ceci fournit une première justification rigoureuse
de l’emploi de cette statistique.
γ − αâ + β b̂
r
(β−αx̄)2
s α2 T1 + P (xt −x̄)2 ∼ tT −2
3.1.12 Prévision
Que se passerait-il si nous voulions trouver un intervalle de confiance sur une valeur future yθ de y ? On
parlerait alors d’intervalle de prévision. Supposons par exemple que y soit une fonction de consommation,
que nous possédions des données annuelles entre 1960 et 1981 sur la consommation et le revenu national,
51
Chapitre 3. Régression linéaire empirique
et que nous voulions prédire la consommation pour l’année 1982, conditionnellement à une projection xθ
du revenu national pour 1982. Sous l’hypothèse que le modèle reste inchangé, nous aurons :
yθ = a + bxθ + uθ et
E(yθ − ŷθ ) = 0
Reprenons l’exemple numérique du chapitre 2. Nous avons t3;0.025 = 3 Un intervalle de confiance sur
b correspondant à α = 0.05 sera donc donné par :
h √ √ i
1.9 − (3.182) 0.037; 1.9 + (3.182) 0.037 = [1.29, 2.5]
H0 : b = 1.2
Pour tester :
H0 : a = −0.15 et b = 2.5
52
3.2. LE MODÈLE DE RÉGRESSION MULTIPLE
on construit la statistique
1
5(−0.10 + 0.15)2 + 2.5 ∗ 3(−0.10 + 0.15)(1.9 − 2.5)
Fobs =
2(0.37)
1
55(1.9 − 2.5)2
+
2(0.37)
18.9125/2
= = 25.79
0.37
On a F2,3;0.05 = 9.55 et F2,3;0.01 = 30.82 On ne rejette donc pas H0 pour α = 0.01 , mais on la rejette
pourα = 0.05
Un intervalle de confiance sur y0 = E[y|x = 35] a pour bornes :
r
1 (3.5 − 3)2
−0.1 + (1.9)(6) ± (3.182)(0.61) +
5 10
Les notions présentées dans les sections précédents vont nous permettre de généraliser les résultats
des précédents à au modèle économétrique possédant un nombre arbitraire de variables explicatives, soit :
Pour prendre un exemple, il est raisonnable de supposer qu’une loi de demande comprenne comme variable
explicative non seulement le prix PY du bien demandé, mais aussi le prix PX d’un substitut et le revenu
R du consommateur. Nous aurions alors :
yt = β1 + β2 PXt + β3 PY t + β4 Rt + t (3.21)
Une formulation matricielle du modèle s’impose. Il peut s’écrire sous la forme suivante :
y1 1 x12 . . . x1k β1 1
y2 1 x22 . . . x2k β2 2
.. = .. .. .. + .. (3.22)
.. ..
. . . . . . .
yT 1 xT 2 . . . xT k βk T
53
Chapitre 3. Régression linéaire empirique
H1 : E() = 0 (3.23)
H2 : E(0 = σ 2 IT (3.24)
L’hypothèse H2 implique que les erreurs sont de même variance, et non corrélées. Si l’hypothèse H4 n’était
pas satisfaite, il existerait une relation linéaire exacte entre certaines des colonnes de X. En substituant
cette relation dans l’équation de régression, on pourrait alors supprimer un régresseur. Ceci revient à dire
que le vecteur β ne pourrait pas être estimé de manière unique.
Notons que nous ne faisons pas encore d’hypothèses sur la forme fonctionnelle de la distribution de
.
ˆ0 ˆ = = y − X β̂)0 (ˆ
(ˆ = y − X β̂) (3.27)
= y 0 y − β̂ 0 X 0 y − y 0 X β̂ + β̂ 0 X 0 X β̂ (3.28)
= y 0 y − 2β̂ 0 X 0 y + β̂ 0 X 0 X β̂ (3.29)
(3.30)
0 ˆ)
∂(ˆ
= −2X 0 y + 2X 0 X β̂ = 0 (3.31)
∂β
Comme X est de rang K X 0 X et définie positive, donc régulière, nous pouvons écrire :
β̂ = (X 0 X)−1 X 0 y (3.32)
Par ailleurs, les conditions de second ordre pour un minimum sont satisfaites, puisque
0 ˆ)
∂ 2 (ˆ
= 2 ∗ (X 0 X) (3.33)
∂β∂β 0
une matrice définie positive, ce qui montre que ˆ0 ˆ est convexe en β̂
54
3.3. Le théorème de Gauss-Markov
= E (X 0 X)−1 X 0 (Xβ + )
E(β̂) (3.34)
(3.36)
(3.41)
Démonstration
Soit donc β̃ = Ay un autre estimateur linéaire de β.
Nous pouvons supposer sans perte de généralité que :
A = (X 0 X)−1 + C
Alors :
0 −1 0
β̃ = (X X) X + C (Xβ + ) (3.43)
(3.45)
est un estimateur sans biais de β si et seulement si CX=O. Nous imposons donc cette condition, qui
implique que β̃ = β + A.
55
Chapitre 3. Régression linéaire empirique
= σ 2 AA0 (3.47)
= V (β̂) + σ 2 CC 0 . (3.51)
(3.52)
Mais les éléments de la diagonale de CC 0 sont des sommes de carrés, donc non négatives. Les variances
des composantes de β̃ sont donc supérieures ou égales aux variances des composantes de β̂.
0 ˆ)
E(ˆ = E(0 M ) = E(trˆ 0 M ˆ) puisque 0 M est un scalaire
= E(tr(M ˆˆ0 ) puisque tr(AB) = tr(BA)
= trE(M ˆˆ0 ) puisque la trace est une somme
= trM E(ˆ ˆ0 ) puisque M est non aléatoire
= trM σ 2 ) = σ 2 tr(M I) = σ 2 tr(M )
mais trM = trIT = tr(X(X 0 X)−1 X 0 )
= trIT = tr(XX 0 )(X 0 X)−1 ) = trIT − trIK = N − K
ˆ0 ˆ
0 ˆ) = (T − K)σ 2 et s2 =
Alors E(ˆ
T −K
est un estimateur sans biais de σ 2 . Par le lemme1, nous avons y 0 y = ˆ0 ˆ + β̂X 0 y donc
(i0 y)2 (i0 y)2
0 0 0 0
yy− = β̂ X y − + ˆ ˆ+ .
T T
c’est-à-dire SCT = SCE + SCR ,
.
56
3.3. Le théorème de Gauss-Markov
Il faut bien noter que cette identité n’est valable que dans un modèle où la somme des résidus est
nulle (i0 ˆ = 0).
Tel sera bien le cas lorsque le modèle de régression comporte un terme constant, puisque i est la
première ligne de X et puisque les équations normales impliquent (Xˆ
= 0).
A partir de cette identité, nous pouvons définir, dans un modéle avec terme constant , le coefficient
de détermination comme :
0 2
SCR/(T − k) T −1 2 k−1
R̄2 = 1 − = R − (3.58)
SCT /(T − 1) T −k T −k
qui est, lui, basé sur des estimateurs sans biais des variances. Si l’on ajoute un régresseur, R2 croîtra
toujours (non strictement) ; ceci n’est pas le cas pour R̄2 .
Dans un modèle sans terme constant, la somme des résidus n’est pas nécessairement nulle et la
décomposition précédente (SCT = SCR + SCE) n’est donc plus valable. Le R2 précédent n’est donc pas
nécessairement compris entre 0 et 1. Néanmoins, on a toujours, en vertu du lemme1 :
avec ŷ = X β̂.
On peut alors définir :
ŷ 0 ŷ ˆ0 ˆ
R∗2 = 0
=1− 0 (3.59)
yy yy
qui est, lui, toujours compris entre 0 et 1. Ce coefficient R∗2 peut être utilisé dans tous les cas, tant
dans un modèle sans constante que dans un modèle avec constante. Mais son interprétation est différente
de celle du R2 , comme précédemment, nous pouvons aussi ajuster ce dernier coefficient de détermination
aux nombres de degrés de liberté, comme suit :
57
Chapitre 3. Régression linéaire empirique
Prédiction
On appelle prédiction de y
ŷ = PX y est la projection orthogonale de y sur l’espace vectoriel engendré par les colonnes de X.
−
→
X = {Xβ, ∀β ∈ RK }
0
PX = PX (symétrie)
PX PX = PX (idempotente).
→
−
Elle a K valeurs propres égale à 1 (K = dim X ) si les colonnes de X sont linéairement indépendantes et
N-K valeurs propres nulles. Sa trace est égale à la somme des valeurs propres ou la somme des éléments
diagonaux de PX .
Résidus statistiques On appelle résidu l’écart et la réalisation yi et la prédiction ŷi . Le vecteur des
résidus :
1 , ˆ2 , . . . , ˆn ] = y − ŷ = y − PX y = (IN − PX )y = MX y
ˆ = [ˆ
→
−
ˆ est la projection orthogonale sur l’orthogogal de X .
On a donc bien en particulier :
X
ˆ ⊥ ŷ ⇔< ˆ, ŷ >= ˆ0 .ŷ = ˆi ŷi = 0
0
MX = IN − PX = MX
MX M X = MX
Remarque 10 Si X contient une constante (régression avec constrante), alors ˆ est par construction
orthogonal au vecteur unitaire τn = [1, . . . , 1]0
X
ˆ ⊥ τn ⇔ ˆ0 τn = i = 0
P
Attention : i diffère de zéro si la regression ne contient pas de constante. Ainsi donc :
( P
N
ˆ ⊥ ŷ, ; ˆi ŷi , = 0 1 X 1 X 1
⇔ Pi=1
N ⇒ ˆi ŷi − ˆi ŷi = Cov(ˆ
i , ŷi ) = 0
ˆ ⊥ ŷ, . i=1 ˆi =0 N N N
Dans le cas d’une régression avec une constante, l’orthoganalité entre le vecteur des résidus et les colonnes
de X implique le fait que la covariance empirique entre ˆi et ŷi est nulle. Enfin ˆi = yi − xi β̂ est le résidu
statistique qui est l’analogue du résidu théorique ou perturbation : i = yi − E(yi |xi )
58
3.3. Le théorème de Gauss-Markov
1. Régresser y et les colonnes de X1 sur les colonnes X2 . Sauver les résidus MX1 y et MX2 X1
2. Régresser MX2 y sur MX2 X1 . L’estimateur des MCO du coefficient de cette réfression est β̂2 :
M1 y = M1 X2 β2 + rsidus (3.62)
Théorème 2 FWL
59
Chapitre 3. Régression linéaire empirique
On sait que
y = PX y + MX Y (3.63)
car
M1 X1 = 0; MX M1 = MX X2 = 0 et X20 M1 MX = 0
du fait que M1 MX = MX . On conclut que MX y est aussi le terme d’erreur de l’équation [3.61].
60
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes
1. ) Comme nous l’avons déjà mentionné, l’existence d’une relation linéaire exacte entre les colonnes
de X nous empêche de déterminer l’estimateur β̂ de manière unique. Ce cas est un cas extrême de
multicolinéarité. Mais il arrive souvent que certaines des colonnes de X présentent une dépendance
linéaire approximative. Les conséquences de ce phénomène sont les suivantes :
– un manque de précision dans les estimations des βi , se traduisant par de variances élevées ;
– les estimations des βi présenteront souvent des distortions importantes, dues à des raisons
numériques. Le nombre de chiffres significatifs des emplacements- mémoire d’un ordinateur est en
effet limité, ce qui se traduit par un manque de stabilité des programmes d’inversion matricielle,
pour des matrices qui sont presque singulières.
Pour illustrer le premier point, reprenons le modèle de régression simple
yt = a + bxt + ut .
variance de (b̂)
λmax
2. La multicolinéarité peut être mesurée en calculant le rapport λmin de la plus grande à la plus petite
valeur propre de X 0 X .
les variables log Kt et log Lt soient fortement colinéaires. Si l’on sait que les rendements d’échelle
sont constants α + β = 1 on peut transformer le modèle comme suit
ce qui a donc pour effet de supprimer un régresseur. Ceci peut résoudre le problème. Essentielle-
ment, l’information a priori α + β = 1 supplée au défaut d’information présent dans l’échantillon
61
Chapitre 3. Régression linéaire empirique
(tentative d’estimer trop de paramètres avec trop peu de données). Cette information a priori
peut également prendre une forme stochastique, non déterministe. C’est le cas de la méthode
bayésienne.
Examinons maintenant le problème du choix d’une forme fonctionnelle, c’est-à-dire du choix de la liste
des régresseurs. Comme nous allons le montrer, l’omission d’une variable explicative a pour conséquence,
en général, un biais de l’estimateur β̂ . Supposons que y soit engendré par le modèle :
y = Xβ + u = X1 β1 + X2 β2 + u avec β2 6= 0 et E(u) = 0
et que l’on omette les colonnes de X2 de la liste des régresseurs. On estimerait alors par moindres carrés
le modèle
y = Xβ + u = X1 β1 + X2 β2 + u∗ avec u∗ = X2 β2 + u
sera biaisé.
Une variable muette, ou binaire (en anglais :dummy variable ) est une variable du type
Dt = 1 si t ∈ T 0 sinon
où Ti ⊆ 1, 2, . . . , T
Une telle variable, incluse dans la liste des régresseurs, pourrait par exemple indiquer la présence ou
l’absence de guerre, ou classifier des données selon un critère saisonnier. Pour des données mensuelles, s’il
n’y pas de variations saisonnières à l’intérieur d’un même trimestre, on pourrait poser :
D1t = 1 si t est un mois du premier trimestre, 0 sinon
D2t = 1 si t est un mois du second trimestre, 0 sinon
D3t = 1 si t est un mois du troisième trimestre, 0 sinon
D4t = 1 si t est un mois duquatrième trimestre, 0 sinon.
Les quatre colonnes des régresseurs D1 , D2 , D3 , D4 pour les 12 mois d’une année auraient alors la
forme suivante :
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
62
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes
Nous ne pourrions pas inclure de constante dans ce modèle, puisque la somme de ces quatre vecteurs est
un vecteur de uns. On aurait alors colinéarité parfaite. Les coefficients des variables Di sont en fait des
constantes spécifiques à chaque saison.
Une autre possibilité serait d’inclure une constante, et de supprimer l’une des variables Di , par
exemple D1 . Les coefficients de D2 , D3 , et D4 mesureraient alors l’effet relatif des facteurs saisonniers :
les constantes spécifiques seraient β1 , β1 + β2 , β1 + β3 , β1 + β4 plutôt que β1 , β2 , β3 , β4
Notons aussi que les variables muettes permettent la spécification de pentes variables. Si Dt = 1 pour
une période de crise, = 0 sinon, et que l’on a des raisons de penser que
la propension marginale à consommer β dans le modèle :
Ct = a + βYt + ut
est différente en temps de non crise et en temps de crise, on pourra estimer les paramètres du modèle :
H : ∼ N (0, σ 2 I)
−T −T 2 1 0
et log L = log 2π − σ − 2 (y − Xβ) (y − Xβ)
2 2 2σ
Nous avons alors les conditions de premier ordre suivantes :
∂ log L 1
= 2
−2X 0 y + 2X 0 X β̂ = 0
∂β 2σ
∂ log L −T 1 0
= 2 + 4 (y − Xβ) (y − Xβ) = 0
∂σ 2 σ̂ σ̂
La première condition implique
β̂ = (X 0 X)−1 X 0 y. Cet estimateur est identique à celui des MCO et est sans biais.
ˆ0 ˆ
σ̂ 2 =
T
63
Chapitre 3. Régression linéaire empirique
comme estimateur de maximum de σ 2 par vraisemblance. Cet estimateur est biaisé Les conditions du
second nous amènent à calculer le Hessien. La matrice Hessienne H s’obtient en dérivant le vecteur
1 0 0
2σ 2 (−2X y + 2X Xβ)
−T 1 0
σ̂ 2 + σ̂ 4 (y − Xβ) (y − Xβ)
0
En remplaçant β par β̂ = (X 0 X)−1 X 0 y et σ 2 par 1
T (y − Xβ) (y − Xβ) , on obtient :
0
− Xσ2X Ok×1
H= −T
Ok×1 σ̂ 4
qui est définie négative puisque (X 0 X) est définie positive et σ̂ 2 > 0 Nous avons donc bien un maximum.
Une association de producteurs d’oignons voudrait étudier l’influence sur la production de d’oignons
par hectare (Y))des quantités de main-d’oeuvre (X1 ) ) et d’engrais (X2 ) employées par hectare. Une
enquête est menées chez dix producteurs d’oignons (i = 1, . . . , 10) et l’on postule la forme fonctionnelle
suivante :
log Yt = β1 + β2 log X1i + β3 log X2i + i
où i est un terme d’erreur aléatoire satisfaisant nos hypothèses (bruit blanc). Les données de l’échantillon
sont résumées dans la matrice suivante :
2
P P P P
P(log Yt ) (log Yt ) (log
P Yt ) log(X1i ) (log
P Yt ) log(X2i )
P (log Yt ) T log(X 1i ) log(X2i )
2
P P P
(log Y t ) log(X 1i ) log(X 1i ) log(X 1i ) log(X
P 1i ) log(X 2i )
log(X2i )2
P P P
(log Yt ) log(X2i ) log(X2i ) log(X2i ) log(X1i )
19.14 11.8 7.1 4.1
11.8 10 2 2
=
7.1
2 7 1
4.1 2 1 7
10 2 2
(X 0 X) = 2 7 1
2 1 7
y 0 y = 19.34
11.8
X 0 y = 7.1
4.1
48 12 −12
1
(X 0 X)−1 = −12 66 −6
432
−12 −6 66
64
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes
1
β̂ = (X 0 X)−1 X 0 y = 0.7
0.2
ˆ
β̂ 0 y = 17.59
ˆ0 ˆ 1.75
s2 = = 0.25
T − 3 10 − 3
1.75
R2 = 1 − = 0.677
19.34 (11.8)2
10
9 2
R̄2 = (0.677) − = 0.585.
7 7
Les résultats peuvent être résumés de la façon suivante (les estimations des écarts-types se trouvent entre
parenthèses) :
Nous allons montrer que l’estimateur β̂ = (X 0 X)−1 X 0 Y de moindres carrés est un estimateur
convergent de β dans le modèle classique Y = Xβ + sous les hypothèses suivantes :
H1 : E() = 0. Les erreurs sont centrées.
H2 : V () = σ 2 In : Homocédasticité des erreurs.
H3 : Le vecteur X des explicatives est non sotchasitique de rang K < n).
1 0
lim (X X) = ΣXX une matrice définie positive.
n→∞ n
E(X 0 ) = X 0 E(X 0 ) = 0
" T # T
X X
V (X 0 ) = V xtk t = σ 2 x2tk
t=1 t=1
T
1 0 1 2 X
et V (X )k = σ x2
n n2 t=1 tk
PT
x2tk 1 0
Mais t=1
n converge par l’hypothèse H4 vers un une limite finie. Donc V n (X )k tend vers zéro
0
quand n tend vers l’infini. on conclut que les composantes de 1
n (X ) vérifient E[ n1 (X 0 )] = 0. Ceci
65
Chapitre 3. Régression linéaire empirique
= plim β + (X 0 X)−1
plimβ̂
= β + plim (X 0 X)−1
" −1 #
1 0 1
= β + plim XX
n n
" −1 #
1 0 1
= β + plim XX plim
n n
= β + Σ−1
XX × OK×1 = β
Normalité asymptotique
Tous les tests présentés dans les sections précédentes ont supposé la normalité des erreurs. Qu’en est-il
si l’on relâche cette hypothèse spécifique sur la distribution du vecteur . En utilisnat le théorème Central
limite on va établir la normalité asymptotique de β̂. Si la taille de l’échantillon tend vers l’infini, on se
base sur la distribution normale pour construire les tests asymptotiques sur le vecteur β.
Remarque 12 En pratique on raisonne, en supposant que σ est connu pour pouvoir utiliser la loi normale
au lieu de celle de student dans le cas où σ est inconnu.
Théorème 3 Supposons que les hypothèses H1 à H2 soient vérifiées, et soit αt la t-ième colonne de la
transposée de X (X’). Définissons le vecteur Zt = t αt et supposons
1 X
√ Zt vérifie le théorème central limite. Alors pour β̂ = (X 0 X)−1 X 0 y :
n
√
(a) dlim n(β̂ − β) ∼ N 0, σ 2 Σ−1
XX
Preuve
(a) Notons que E(Zt ) = 0 et V (Zt ) = σ 2 αt αt0
Par conséquent :
n n
1X X
lim V (Zt ) = lim σ 2 αt αt0 = σ 2 ΣXX matrice définie positive d’après H4 .
n→∞ n n→
i=1 i=1
∼ N 0, Σ−1
XX
66
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes
Donc
0 −1
1 0 1 1 0 1 0
ˆ ˆ − Xˆ
XX X ˆ et
n n n n
1 0 1 0
plim ˆ ˆ = plim − O1×K Σ−1
XX OK×1 = σ
2
n n
en vertu du théorème de Slutsky et de l’hypothèse du théorème.
Si nous relâchons l’hypthèse d’homocédasticité des erreurs (i.eV () = σ 2 In ), nous obtenons une
extension du MCO appelé le modèle de moindres carrés généralisés.
On considère le modèle
y = Xβ + (3.68)
– H1 : E(y) = Xβ
– H2 : Les erreurs sont non sphériques :
– H3 : Les régresseurs sont sont non stichastique i.e X est nonn aléatoire de rang K ssi la matrice
(X’X) est de format K × K.
– H3 : Multicolinéarité implique que y ∼ N M V (Xβ; Σ) avec
où X est une matrice des explicatives de format (n, K) et de rang K, et un vecteur aléatoire de Rn
. On suppose que
E() = 0 et V () = σ 2 Ω
où Ω est une matrice symétrique définie positive connue. Pour constuire l’estimateur moindre carrés
généralisés BLUE, il est important de calculer les racines de Ω−1 .
On sait qu’il existe une matrice inversible H orthogogale telle que H 0 Ω−1 H = I et, par suite
H 0 H = Ω−1 . En posant y1 = Hy, X1 = HX et 1 = H, le modèle [3.68] s’écrit sous la forme équivalente :
y1 = X1 β + 1 (3.69)
où la matrice β de format (K,1) où le résidu 1 satisfait les hypothèses des moindres carrés ordinaires,
soit :
E(1 ) = 0 et V (1 ) = σ 2 I.
67
Chapitre 3. Régression linéaire empirique
Propriétés de
E(β̂mcg ) = β; V (β̂mcg ) = σ 2 (X 0 Ω−1 X)−1 .
1 k2
kˆ ˆ0 Ω−1 ˆ
S2 = = (3.71)
n−K n−K
H0 : Ω(0) = I ⇔ θ = 0
2. Si on suppose que Ω = Ω(θ), on utilise les résidus des MCO pour obtenir un estimateur consistent
de θ̂ et
et
√
n(β̂mcg−r − β) ∼ N (0, V )
68
3.4. Problèmes particuliers : multicolinéarité, biais de spécification, variables muettes
avec −1 !
2 1 0 −1 −1
V = plim Smcg−r X Ω̂ X)
n
3. Si la forme de Ω(θ̂) est inconnue, d’autres calculs permettent de calculer la distribution asymptotique
de
√ d
n(β̂mcg−r − β) → N (0, D−1 CD−1 )
avec
1 0 −1 −1
D = plim X Ω̂ X) X = D̂
n
1 0 −1 −1
C = plim X Ω̂ ΣΩ̂ X
n
avec Σ = V (y). D̂ est constent. Le problème est de trouver un estimateur constant de C sans
imposer des contraintes sur Σ matrice de variance covariance asymptotique D−1 CD−1 , matrice
robuste avec des restrictions particulières sur la distribution hétérogènes et on impose la dépendance
des observations.
Le théorème ci-dessous est un cas particulier d’application au modèle à erreurs autorégressives d’un
théorème plus général s’appliquant à tout estimateur "Aitken-réalisable". Il montre que si Ω est est
remplcé par son estimateur convergent de cette matrice dans la formule β̂mcg , on obtient un estimatteur
de tβmcg ,qui la même distribution limite que β̂mcg .
ρn−1
1 ρ ...
ρ 1
E(0 ) = σ 2 Ω = σ 2 , X et non stochastique
..
... .
ρn−1 ... 1
1
X 0 Ω−1 X = Q soit une latrice défine
Si ρ̂ est un estimateur convergent de ρ et supposons que limn→∞ n
où
. . . ρ̂n−1
1 ρ̂
ρ̂ 1
Ω̂ =
..
... .
ρ̂n−1 ... 1
69
Chapitre 3. Régression linéaire empirique
1 0 −1 1 0 −1
plim X Ω̂ X = lim X Ω̂ X = Q
n n
1
pilm √ (X 0 Ω−1 − X 0 Ω−1 ) = 0
n
1
plim (0 ) = 0
n
√
1 −1 0 1
n(β̂ − β) = X 0 Ω−1 X X √ Ω et que
n n
X
X 0 Ω = X 0 H 0 H = Zt .
Zt ∼ N (0, σ 2 Q).
P
Par conséquent, en vertu du théorème central limite, dlim
Donc
√
1 0 −1 1 0 −1
dlim n(β̂ − β) = plim (X Ω X dlim (X Ω
n n
∼ N (0, (σ 2 Q)Q−1 ) = N (0, σ 2 Q−1 )
En effet :
√
ˆ 1 0 −1 1 0 −1 1 0 −1
n(β̂ − β) = X Ω̂ X (X Ω̂ , dlim (X Ω ∼ N (0, σ 2 Q)
n n n
et donc
ˆ
dlim(β̂ − β) =∼ N (0, σ 2 Q−1 )
1 ˆ ˆ
(y − X β̂)Ω̂−1 (y − X β̂) est égale à σ 2 .
n−k
La preuve est exactement la même que celle de la section [1.5] et il suufit de remplacer y par Hy et X par
ˆ
HX. Comme plimβ̂ = β = plimβ̂ et comme plimΩ̂ = Ω, le théorème de Slutsky implique que s2 = σ 2 .
70