Professional Documents
Culture Documents
L’Hétéroscédasticité
16.1 Introduction
La plupart des résultats obtenus jusqu’à présent pour les modèles de régression
reposaient explicitement ou implicitement sur l’hypothèse d’homoscédasticité
des aléas, et certains résultats dépendaient sur l’hypothèse supplémentaire
qu’ils sont normalement distribués. Cependant, dans la pratique, les deux hy-
pothèses d’homoscédasticité et de normalité semblent souvent être enfreintes.
C’est principalement le cas lorsque les données sont relatives à des observations
en coupe transversale des ménages ou des entreprises ou à des observations
chronologiques des actifs financiers. Dans ce chapitre, nous traitons d’un cer-
tain nombre de thèmes importants, connexes à l’hétéroscédasticité, à la non
normalité et à d’autres défaillances des hypothèses habituelles concernant les
aléas des modèles de régression.
Comme nous l’avons vu dans le Chapitre 9, il est parfaitement facile
d’estimer un modèle de régression par moindres carrés pondérés (c’est-à-
dire par GLS) quand les aléas sont hétéroscédastiques avec une structure
d’hétéroscédasticité déterminée par une fonction scédastique connue. Nous
avons aussi vu qu’il était raisonnablement facile d’estimer un modèle de
régression par GLS faisables ou par maximum de vraisemblance lorsque la
forme de la fonction scédastique est connue mais pas ses paramètres. De
plus, comme nous l’avons vu dans le Chapitre 14, faire subir à la variable
dépendante (et probablement également à la fonction de régression) une trans-
formation non linéaire appropriée peut éliminer entièrement l’hétéroscédasti-
cité. Bien que parfois très efficaces et pratiques, ces techniques ne nous per-
mettent pas de gérer le cas le plus commun où presque rien n’est connu sur
la fonction scédastique.
Dans la Section 16.2, nous discutons des propriétés des estimations
NLS (et OLS) lorsque les aléas sont hétéroscédastiques. Sous des hy-
pothèses raisonnables, les estimations demeurent convergentes et asympto-
tiquement normales, mais leur matrice de covariance asymptotique diffère
de la matrice habituelle. Dans la Section 16.3, nous montrons alors qu’il
est possible d’employer un estimateur de la matrice de covariance robuste
à l’hétéroscédasticité, même si pratiquement rien n’est connu sur la forme
547
548 L’Hétéroscédasticité
y = Xβ + u,
où Ω est une matrice diagonale avec des éléments types diagonaux ωt2 bornés
supérieurement et inférieurement. Nous nous intéressons aux propriétés de
l’estimateur OLS β̂ lorsque le DGP est (16.01). Clairement,
¡ ¢−1 ¡ ¢−1
β̂ = X>X X>y = β0 + X>X X>u. (16.02)
16.2 Moindres Carrés et Hétéroscédasticité 549
Il s’ensuit que
³ ´−1 ³ ´
1 > 1 >
plim (β̂) = β0 + plim −n
X X plim −n
X u .
n→∞ n→∞ n→∞
Comme nous l’avons vu dans la Section 9.5, cette condition ne tient pas tou-
jours quand les aléas ne sont pas i.i.d. Bien que la discussion n’ait pas été
rigoureuse, il était clair que trois situations devaient être éliminées. Deux de
celles-ci impliquaient des matrices Ω non diagonales, la troisième impliquait
des variances non bornées. Puisque ces trois situations sont exclues par les
hypothèses déjà formulées, nous pouvons sans doute conclure que β̂ est effec-
tivement convergent. Pour un traitement beaucoup plus complet de ce sujet,
voir White (1984).
Si X peut être considérée comme fixe, il est facile de voir à partir de
(16.02) que
³¡ ¢−1 > > ¡ > ¢−1 ´
>
V (β̂ − β0 ) = E X X X uu X X X
(16.03)
¡ > ¢−1 > ¡ > ¢−1
= X X X ΩX X X .
où σ02 serait dans ce cas la limite en probabilité de la moyenne des ωt2 , et avec
la matrice de covariance GLS
¡ > −1 ¢−1
X Ω X .
doit être une matrice semi-définie positive. Elle sera une matrice nulle dans
les circonstances (relativement rares) où le Théorème de Kruskal s’applique
et les estimations OLS et GLS coı̈ncident (voir la Section 9.3).
Evidemment, deux problèmes différents surgissent si nous utilisons les
OLS en lieu et place des moindres carrés pondérés, ou GLS. Le premier est
que les estimations OLS ne seront pas efficaces, ce qui découle du Théorème de
550 L’Hétéroscédasticité
Ici, l’expression clé est le facteur central du second terme, c’est-à-dire X>ΩX.
Puisque Ω est diagonale, cette matrice est
n
X
ωt2 Xt>Xt ,
t=1
où Xt désigne la t ième ligne de X. Il s’agit simplement d’une moyenne des ma-
trices Xt>Xt , pondérée par les ωt2 . Dans la plupart des cas, ces pondérations
seront liées aux lignes correspondantes de la matrice X. Cependant, sup-
posons qu’elles ne le soient pas. Alors,
µ Xn ¶ µ Xn ¶ µ Xn ¶
1 2 > 1 2 1 >
plim − ωt Xt Xt = plim − ωt plim − Xt Xt . (16.05)
n→∞ n n→∞ n n→∞ n
t=1 t=1 t=1
Ici, nous avons multiplié chacune des matrices Xt>Xt par la limite en proba-
bilité de la pondération moyenne, au lieu de multiplier par les pondérations
individuelles. Si les pondérations sont réellement sans rapport avec Xt>Xt ,
c’est une opération tout à fait valable.
Il est clair que l’estimation OLS de la variance d’erreur tendra vers
µ Xn ¶
1
plim −
n
ωt ≡ σ02 .
2
n→∞
t=1
Ainsi, si (16.05) est valable, nous pouvons voir que la limite en probabilité de
n fois la matrice de covariance des OLS généralisés (16.03) est
³ ´−1
1
σ02 plim −n
>
X X , (16.06)
n→∞
Par conséquent, si nous estimons une moyenne, la formule usuelle pour l’écart
type d’une moyenne d’échantillon sera valable qu’il y ait hétéroscédasticité ou
pas.
552 L’Hétéroscédasticité
où Ω possède les mêmes propriétés que celles supposées dans le cas linéaire.
Alors il n’est pas difficile de voir que la relation asymptotique suivante,
équivalente à l’équation (5.39) récrite d’une manière légèrement différente,
est tout aussi valable que dans le cas homoscédastique:
a ¡ ¢−1
n1/2 (β̂ − β0 ) = n−1X0>X0 n−1/2 X0>u. (16.07)
2
Les précurseurs de l’article de White dans la littérature statistique sont Eicker
(1963, 1967) et Hinkley (1977), ainsi que certains articles novateurs sur le
“bootstrap” (consulter le Chapitre 21).
16.3 Estimation de la Matrice de Covariance 553
Les premier et troisième facteurs sont ici identiques, et nous pouvons les es-
timer facilement avec l’approche usuelle. Un estimateur convergent est
1
−
n
X̂>X̂,
où Xti ≡ Xti (β0 ). D’autre part, un élément type de (16.10) est
n
X
1
−
n
û2t X̂ti X̂tj . (16.12)
t=1
Du fait que β̂ converge vers β0 , ût converge vers ut , û2t vers ut2 , et X̂ti converge
vers Xti . Par conséquent, l’expression (16.12) est asymptotiquement égale à
n
X
1
−
n
u2t Xti Xtj . (16.13)
t=1
Sous nos hypothèses, nous pouvons appliquer une loi des grands nombres à
(16.13); voir White (1980, 1984) et Nicholls et Pagan (1983) pour certains
détails techniques. Il s’ensuit immédiatement que (16.13), et par conséquent
(16.12) aussi, tendent en probabilité vers (16.11). Par conséquent, la matrice
¡ ¢−1 ¡ −1 > ¢¡ ¢−1
n−1X̂>X̂ n X̂ Ω̂ X̂ n−1X̂>X̂ (16.14)
û2t
¡ ¢2 . (16.16)
1 − ĥt
Il semble que cela puisse induire une correction trop forte de la tendance des
résidus des moindres carrés à être trop petits, puisque dans le cas linéaire
avec homoscédasticité l’espérance de (16.16) serait plus grande que σ 2. Mais
lorsque les aléas manifestent effectivement de l’hétéroscédasticité, les obser-
vations à grande variance tendront à influencer les estimation paramétriques
plus lourdement que les observations à faible variance et tendront ainsi à avoir
des résidus beaucoup trop petits. Ainsi, dans la mesure où de grandes vari-
ances sont associées à de grandes valeurs de ĥt , cette correction trop forte
peut être effectivement un atout.
Nous avons mentionné quatre HCCME différents. Nous les noterons de
HC0 à HC3 . C’est leur définition du t ième élément de Ω̂ qui les distingue:
HC0 : û2t
n
HC1 : û2t
n−k
16.3 Estimation de la Matrice de Covariance 555
û2t
HC2 :
1 − ĥt
û2t
HC3 : ¡ ¢2 .
1 − ĥt
MacKinnon et White (1985) ont étudié le fonctionnement en échantillon fini
des statistiques pseudo-t basées sur ces quatre HCCME.3 Ils ont trouvé tout
d’abord que HC0 possède les moins bonnes performances, tendant à rejeter
beaucoup trop fréquemment l’hypothèse nulle dans certains cas, que HC1
fonctionnait mieux et HC2 encore mieux, qu’enfin HC3 possède les meilleures
propriétés. Un travail ultérieur de Chesher et Jewitt (1987), Chesher (1989),
et Chesher et Austin (1991) a ajouté une certaine précision aux fondements
de ces résultats et a montré que HC3 ne fonctionnera pas toujours mieux
que HC2 .
Pour une raison pratique, nous ne devrions jamais employer HC0 , puisque
HC1 n’est pas plus coûteux en temps de calcul et fonctionne toujours mieux.
Lorsque les éléments diagonaux de la matrice “chapeau” sont disponibles, nous
devrions utiliser sans hésitation HC2 ou HC3 plutôt que HC1 . Cependant, le
choix de la forme à employer n’est pas tout à fait clair. Dans certains cas, HC2
est plus attrayant, mais HC3 semble généralement mieux fonctionner dans les
expériences Monte Carlo.
Bien que de nombreux progiciels de régression calculent maintenant les
HCCME, ils nous fournissent souvent le HCCME le moins souhaitable, c’est-
à-dire HC0 . Messer et White (1984) suggèrent un moyen ingénieux de cal-
culer n’importe lequel de ces HCCME grâce à un programme conçu pour
l’estimation par variables instrumentales. Notons ǔt une estimation quel-
conque de ut : ût dans le cas de HC0 , ût /(1 − ht )1/2 dans le cas de HC2 , et
ainsi de suite. La procédure suggérée par Messer et White consiste à constru-
ire les variables artificielles
yt Xt
yt∗ ≡ , Xt∗ ≡ , et Zt ≡ Xt ǔt
ǔt ǔt
3
En réalité, ils ont recherché le fonctionnement du “jackknife” plutôt que du
HCCME appelé HC3 mais d’autres simulations de calculs suggèrent que HC3
se comporte de façon similaire au “jackknife”.
556 L’Hétéroscédasticité
Cette procédure n’est tolérée que si aucun des ǔt n’est identiquement nul; les
manières de gérer des résidus nuls sont discutées dans l’article d’origine. Bien
entendu, n’importe quel HCCME peut être calculé directement en utilisant
de nombreux langages de programmation différents. L’élément clé consiste à
lancer les calculs de telle sorte que la matrice Ω̂ de dimension n × n ne soit
jamais formée explicitement.
Il existe deux moyens distincts d’employer les HCCME pour tester les
hypothèses. Le plus direct consiste simplement à construire des tests de Wald
et des statistiques pseudo-t, à la manière habituelle, en utilisant le HCCME à
la place de l’estimateur usuel de la matrice de covariance des moindres carrés.
Cependant, comme nous l’avons vu dans la Section 11.6, il est également
possible de construire des tests LM, ou C(α), basés sur ce que nous avons
appelé régression de Gauss-Newton robuste à l’hétéroscédasticité, ou HRGNR.
Supposons que l’hypothèse alternative soit
y = x(β, γ) + u,
σ 2 = α + γ1 σ 2.
yt = xt (β) + ut , ut = σt εt ,
(16.23)
σt2 = α + A(L, γ)u2t + B(L, δ)σt2 , εt ∼ NID(0, 1).
n
X Xn ¡ ¢2
1 ¡ ¢ 1 yt − xt (β)
C −− log σt2 (α, γ, δ, β) −− , (16.24)
2
t=1
2 σ 2 (α, γ, δ, β)
t=1 t
Comme il s’agit d’un modèle GARCH, nous devons déterminer σt2 à partir
de (16.25) de manière récursive, pour pouvoir évaluer (16.24). L’algèbre est
assez compliquée, mais avec un progiciel approprié, l’estimation n’est pas trop
difficile.
Le modèle (16.23) est clairement un modèle pour lequel la régression
artificielle à longueur double (DLR), introduite dans la Section 14.4, est ap-
plicable. Si nous prenons la définition
yt − xt (β)
ft (yt , θ) ≡ ¡ ¡ ¢2 ¢1/2 ,
α + A(L, γ) yt − xt (β) + B(L, δ)σt2
il est clair que ce modèle est un cas particulier de la classe des modèles (14.18).
L’obtention des dérivées partielles nécessaires à l’exécution de la DLR n’est
pas triviale, tout particulièrement lorsque δ 6= 0, mais le même effort est
également nécessaire pour exécuter n’importe quelle technique d’estimation
asymptotiquement convergente. La DLR peut être utilisée pour obtenir des
estimations efficaces en une étape, à partir d’estimations OLS et d’estimations
convergentes des paramètres ARCH obtenues, ou en tant que composante
d’une procédure d’estimation ML. Bien sûr, la DLR nous fournit aussi un
moyen naturel et relativement commode de calculer une large variété de tests
de spécification pour les modèles à erreurs ARCH et GARCH.
16.5 Tests d’Hétéroscédasticité 561
yt = xt (β, σt2 ) + ut , ut = σt εt ,
σt2 = α + A(L, γ)u2t + B(L, δ)σt2 , εt ∼ NID(0, 1).
yt = xt (β) + ut , ut ∼ IID(0, σ 2 ),
où h(·) est une fonction prenant des valeurs positives qui peut être linéaire
ou non, Zt un vecteur de q observations sur des variables exogènes ou
prédéterminées, et α et γ des paramètres inconnus. Nous avons vu dans
la Section 11.5 que l’on peut tester l’hypothèse γ = 0 en testant c = 0 dans
la régression artificielle
Ici, v̂ désigne un vecteur d’élément type û2t , ι un vecteur dont chaque élément
égale 1, et Z une matrice de ligne type Zt . La statistique de test est soit n fois
le R2 centré, soit la statistique ordinaire en F pour c = 0. Nous avons dérivé
ce test comme une application des résultats généraux sur les régressions de
Gauss-Newton.
Dans la Section 11.5, nous nous sommes peu étendus sur la manière de
choisir la matrice Z. Il existe un grand nombre de moyens d’y parvenir. Cette
matrice Z peut se composer de n’importe quelle observation sur des variables
exogènes ou prédéterminées appartenant à l’ensemble d’information qui condi-
tionne y, ou des fonctions de telles variables, et elle peut avoir une ou plusieurs
colonnes. Une approche consiste à spécifier des alternatives hétéroscédastiques
particulières qui semblent plausibles et à dériver la matrice Z en conséquence.
La régression (16.20) utilisée pour tester des erreurs ARCH(p) est un exemple
particulier dans lequel la matrice Z est composée exclusivement de résidus au
carré retardés. Un autre exemple est celui de l’hétéroscédasticité multiplica-
tive, qui semble souvent plausible si la régressande est toujours largement
supérieure à zéro. Par conséquent, dans ce cas, une hypothèse alternative
raisonnable serait ¡ ¢ ¡ ¢γ
E u2t = α Xt β . (16.27)
Puisque l’hypothèse nulle correspond à γ = 0, on peut assimiler α à σ 2. La
dérivée partielle de la partie droite de (16.27) par rapport à γ est
¡ ¢γ
α Xt β log(Xt β). (16.28)
SSR3 /(n3 − k)
, (16.34)
SSR1 /(n1 − k)
où SSR1 et SSR3 désignent les sommes des résidus au carré des premier et
dernier tiers de l’échantillon, et n1 et n3 les tailles de l’échantillon associées.
En supposant que les aléas sont distribués selon une loi normale, cette statis-
tique de test serait, sous l’hypothèse nulle, exactement distribuée selon une
F (n3 − k, n1 − k); même sans normalité, elle aurait approximativement cette
distribution en grands échantillons. Notons que le test de Goldfeld-Quandt
est un test bilatéral, caractère plutôt inhabituel pour un test en F , puisque
nous voulons rejeter l’hypothèse nulle si la statistique de test (16.34) est soit
trop grande, soit trop petite.
D’autres tests pour l’hétéroscédasticité intéressants furent proposés par
Glejser (1969), Szroeter (1978), Harrison et McCabe (1979), Ali et Giacotto
(1984), Evans et King (1985, 1988), et Newey et Powell (1987). Plusieurs de
ces articles, et notamment ceux de MacKinnon et White (1985) et Griffiths
et Surekha (1986), fournissent des démonstrations issues d’expériences Monte
Carlo sur les propriétés d’un ou plusieurs tests. Voir aussi Godfrey (1988,
Sections 4.5 et 5.5).
Comme dans la Section 12.5, nous supposerons que les données sont effective-
ment générées par une dérive de DGP de la forme
où Zt est un vecteur de dimension 1×q. Si nous ne supposons pas que les aléas
sont normalement distribués, une statistique de test possible (de la forme χ2 )
est n fois le R2 centré de la régression de v̂, un vecteur d’élément type û2t , sur
une constante et Z. Cette statistique de test peut s’écrire
Tableau 16.2 Puissance des Différents Tests lorsque le DGP a des Erreurs AR(1)
et ensuite à concevoir des tests LM pour l’hypothèse nulle que les paramètres
“encadrés” sont nuls. Lorsque cette approche est employée, comme dans
Jarque et Bera (1980) et Kiefer et Salmon (1983), les tests qui en résultent
s’avèrent être simplement des tests pour l’asymétrie et l’excès de kurtosis.
Aussi ne discuterons-nous pas de cette approche d’“encadrement” mais sup-
poserons dès le début que nous voulons tester les hypothèses
E(u3t ) = 0 et E(u4t ) = 3σ 4,
Ces deux résultats nous simplifient le calcul des statistiques de test. Nous
utilisons simplement les résidus normalisés
ût − µ̂
et ≡ ,
σ̂
où µ̂ désigne la moyenne empirique des ût (qui peut être différente de zéro
pour les modèles ne comportant pas l’équivalent d’un terme constant). Alors,
une statistique de test pour l’asymétrie est
n
X
(6n)−1/2 e3t (16.41)
t=1
16.7 Tests d’Asymétrie et d’Aplatissement 571
Ainsi, si les résidus normalisés étaient distribués en fait selon une NID(0, 1),
nous trouverions que le membre de gauche de (16.39) serait égal au sixième
moment de la distribution N (0, 1), ou 15. De façon similaire, le membre de
gauche de (16.40) serait
µ Xn ¶
1 ¡ 8 4
¢
plim −
n
z − 6z + 9 = 105 − 18 + 9 = 96.
n→∞
t=1
L’inexactitude des ces résultats provient du fait que les résidus normalisés
sont calculés à l’aide d’estimations de l’espérance et de l’écart type.
Pour s’en rendre compte, le moyen le plus simple de procéder est d’ima-
giner de baser un test sur la régression OPG dont nous avons discuté, pour la
4
Kiefer et Salmon (1983) ont proposé des statistiques de test qui apparaissent
quelque peu différentes mais sont rigoureusement identiques numériquement à
(16.41) et (16.42).
572 L’Hétéroscédasticité
première fois dans la Section 13.7. Supposons, pour simplifier, que le modèle
de régression à tester soit
yt = β + ut , ut ∼ NID(0, σ 2 ); (16.44)
l’ajout de régresseurs en plus du terme constant ne modifie pas les résultats.
Lorsque tous les termes sont évalués avec les véritables valeurs, la régression
OPG qui correspond à ce modèle peut s’écrire
¡ ¢
1 = but + s u2t − σ 2 + résidu, (16.45)
où nous avons remplacé yt − β par ut et multiplié le premier régresseur par
σ 2 et le second par σ 3. (Puisque nous sommes intéressés par le calcul des
statistiques de test, et non par l’estimation des matrices de covariance, il
est parfaitement légitime de multiplier n’importe lequel des régresseurs par
une constante). Un test de (16.44) contre n’importe quelle alternative peut
être basé sur une régression OPG. Nous devons simplement ajouter une ou
plusieurs colonnes correctement spécifiées à (16.45).
Pour tester contre l’alternative que les aléas sont asymétriques, le régres-
seur naturel à ajouter à (16.45) est u3t . La statistique de test sera simplement
le t de Student associé à ce régresseur. Le numérateur de cette statistique
est donc simplement la moyenne du régresseur, après qu’il ait été projeté
orthogonalement sur le complément orthogonal de l’espace engendré par les
deux autres régresseurs. Sous l’hypothèse nulle, le régresseur de test est déjà
asymptotiquement orthogonal au second régresseur dans (16.45), puisque tous
les moments impairs d’une distribution normale centrée sont nuls. Mais il ne
sera pas orthogonal au premier régresseur dans (16.45). La projection de u3t
orthogonalement sur le complément orthogonal de l’espace engendré par ut
donne à Pn !
4
u t a
u3t − ut Pt=1n 2
= u3t − 3σ 2 ut . (16.46)
t=1 ut
Ici, l’égalité asymptotique est obtenue en divisant chaque terme de somme par
n puis en calculant les limites en probabilité. Il est facile de vérifier à partir
de (16.43) que la variance de u3t − 3σ 2 ut est 6σ 6.
De façon similaire, pour tester contre l’alternative que les aléas ont un
quatrième moment différent de 3σ 4, le régresseur naturel à ajouter à (16.45)
est u4t − 3σ 4. A nouveau, le numérateur de la statistique de test sera la
moyenne de ce régresseur, après qu’il ait été projeté orthogonalement sur le
complément orthogonal de l’espace engendré par les deux autres. Dans ce cas,
le régresseur de test est asymptotiquement orthogonal au premier régresseur
dans (16.45), mais pas au second. La projection orthogonale du régresseur de
test sur les derniers donne
Pn ¡ 6 4 2 2 4 6
¢
¡ ¢ t=1 ut − ut σ − 3ut σ + 3σ
u4t − 3σ 4 − u2t − σ 2 Pn ¡ 4 2 2
¢
4
t=1 ut − 2ut σ + σ (16.47)
a
= u4t − 6u2t σ 2 + 3σ 4.
16.8 Tests de Moments Conditionnels 573
Ici, l’égalité asymptotique est obtenue de la même façon que dans (16.46). Il
est facile de vérifier que la variance de u4t − 6u2t σ 2 + 3σ 4 est 24σ 8.
A présent, supposons que nous remplaçons ut par et et σ par 1 dans les
expressions des membres de droite de (16.46) et (16.47). Alors, il est facile de
voir que
Xn n
¡ 3 ¢ X
et − 3et = e3t et
t=1 t=1
n
X Xn
¡ ¢ ¡ 4 ¢
e4t − 6e2t + 3 = et − 3 .
t=1 t=1
Nous pouvons penser de (16.48) qu’elle exprime une condition sur le moment.
En général, les fonctions mt peuvent aussi dépendre de variables exogènes ou
prédéterminées.
Alors même qu’il existe une fonction différente pour chaque observation,
il semble raisonnable, par analogie avec les moments empiriques, d’utiliser
l’expression suivante comme contrepartie empirique du moment dans la con-
dition du moment (16.48):
n
X
1
m(y, θ̂) ≡ −
n
mt (yt , θ̂), (16.49)
t=1
yt = Xt β + ut , ut ∼ IID(0, σ 2 ), (16.50)
yt = Xt β + γzt + ut . (16.52)
Ces exemples suggèrent que les tests CM obtenus en explicitant les condi-
tions du moment sont fréquemment ceux que nous connaissons déjà à travers
d’autres approches. C’est en effet souvent le cas. Par exemple, considérons le
test de l’hypothèse que le vecteur θ2 de dimension r soit nul dans un modèle es-
timé par maximum de vraisemblance. Les “conditions du moment” naturelles
à utiliser sont
¡ ¢
E gi (θ1 , 0) = 0 pour i = k − r + 1, . . . , k.
Ces conditions établissent que les r éléments du vecteur score g(θ) correspon-
dant aux éléments de θ2 doivent être d’espérance nulle sous l’hypothèse nulle
où θ2 = 0. Pour obtenir des moments empiriques, nous remplaçons simple-
ment θ1 par les estimations ML contraintes θ̃1 . Cela fournit le vecteur score
g(θ̃). Par conséquent, dans ce cas, la forme score familière d’un test LM peut
être assimilée à un test CM.
Dans ces cas et dans de nombreux autres, les tests CM s’avèrent souvent
être exactement les mêmes que des tests de spécification plus familiers basés
sur les principes LM ou DWH. Quels sont alors les avantages liés à des tests
CM par rapport aux autres tests? Pagan et Vella (1989) avancent l’idée,
initialement dans le contexte des modèles à variable dépendante limitée, qu’il
est souvent beaucoup plus facile et naturel d’écrire des conditions du moment
plausibles plutôt que de dériver des tests LM. En effet, c’est fréquemment le
cas. Nous avons implicitement suivi l’approche CM dans la section précédente,
lorsque nous avons dérivé des tests de normalité en testant explicitement
l’asymétrie et l’excès de kurtosis, plutôt que de formuler un modèle alternatif
et d’en dériver des tests LM. Comme nous l’avions remarqué, nous aurions pu
obtenir des statistiques de tests identiques en utilisant la dernière approche,
mais cela nous aurait réclamé plus de travail. Ainsi, l’approche CM peut
être attrayante lorsqu’il est facile d’écrire les conditions du moment que l’on
souhaite tester ainsi que leurs contreparties empiriques.
Cependant, le simple fait d’écrire un ensemble de moments empiriques
ne nous permet pas, à lui seul, d’obtenir une statistique de test. Nous devons
aussi pouvoir estimer leur matrice de covariance. Comme nous le verrons
de façon très brève, si nous manipulons un modèle estimé par maximum de
vraisemblance, auquel s’applique la régression OPG familière, il est possi-
ble d’obtenir cette matrice de façon mécanique en utilisant cette régression.
Mais bien que cette procédure nous permette d’obtenir des tests CM directe-
ment à partir de la régression OPG, ces tests, comme d’autres calculés à
partir de régressions OPG, ont fréquemment d’assez mauvaises propriétés en
échantillon fini. Si l’on espère obtenir des tests CM ayant de bonnes propriétés
en échantillon fini, on peut être obligé d’entreprendre une analyse détaillée,
comme celle menée dans la dernière section, sur la distribution des moments
empiriques. De façon alternative, dans certains cas, les tests peuvent être
calculés à l’aide de régressions artificielles ayant de meilleures propriétés en
échantillon fini que celles de la régression OPG. La conclusion de tout ceci est
que l’obtention des tests CM n’est pas toujours une chose facile à gérer.
16.8 Tests de Moments Conditionnels 577
1 a1
µ0 = − N >ι = − −
n 0
G >m .
n 0 0
(16.58)
Ensuite, nous exploitons le résultat très bien connu (13.18) sur la relation
liant les estimations ML, la matrice d’information et le vecteur score:
a
n1/2 (θ̂ − θ0 ) = I−1
0 n
−1/2
g0 . (16.59)
a ¡ ¢−1
n1/2 (θ̂ − θ0 ) = n−1 G0>G0 n−1/2 G0>ι.
nous avions obtenu dans la Section 12.7, auquel nous apportons à présent une
démonstration géométrique. Appliquons le Théorème FWL à la fois à (16.62)
et (16.63) pour obtenir les deux régressions
et l’évaluer avec les estimations ML θ̂ pour obtenir Ẑ. Ensuite, nous calculons
une régression OPG, avec les régresseurs Ĝ et Ẑ, puis utilisons n moins la
SSR comme statistique de test. A condition que la matrice [Ĝ Ẑ ]> [Ĝ Ẑ ]
582 L’Hétéroscédasticité
yt = xt (β) + ut , ut ∼ NID(0, σ 2 ),
où xt (β) est une fonction deux fois continuement différentiable qui dépend
de β, un vecteur de p paramètres, et de variables exogènes et prédéterminées
qui varient suivant les observations. Ainsi, le nombre total de paramètres est
k = p + 1. Pour ce modèle, la contribution à la fonction de logvraisemblance
de la t ième observation est
1 1 ¡ ¢2
`t (β, σ) = − − log(2π) − log(σ) − 2 yt − xt (β) .
2 2σ
Ainsi, la contribution de la t ième observation du régresseur correspondant au
i ième élément de β est
1¡ ¢
Gti (β, σ) = yt − xt (β) Xti (β), (16.66)
σ2
où, comme d’habitude, Xti (β) désigne la dérivée partielle de xt (β) par rapport
à βi . De façon similaire, la contribution de la t ième observation au régresseur
correspondant à σ est
1 1¡ ¢2
Gt,k (β, σ) = − + 3 yt − xt (β) . (16.67)
σ σ
En utilisant (16.66) et (16.67), il est facile de calculer les régresseurs pour
la version OPG du test IM. Nous avons les définitions
1¡ ¢ ∗ ∂Xti (β)
êt ≡ yt − xt (β̂) , X̂ti ≡ Xti (β̂), et Xtij (β) ≡ .
σ̂ ∂βj
Alors, à des facteurs multiplicatifs près qui peuvent être sans effet sur
l’ajustement de la régression, et donc sans effet sur la valeur de la statistique
de test IM, les régresseurs pour la régression de test sont
De plus, les hypothèses utilisées pour obtenir (16.73) n’étaient pas aussi fortes
que celles utilisées pour obtenir l’égalité de la matrice d’information. Cela
suggère que (16.73) peut être vraie plus généralement que (16.74), et cela est
en effet le cas, comme White (1982) l’a montré. Ainsi, s’il y a raison de croire
que l’égalité de la matrice d’information ne tient pas, il peut être astucieux
d’employer l’estimateur suivant pour la matrice de covariance de θ̂:
Ĥ −1 (Ĝ>Ĝ)Ĥ −1 , (16.75)
16.10 Conclusion
Ce chapitre a couvert un ensemble de concepts très important, dont beaucoup
sont relativement récents et certains n’ont qu’un faible lien avec le thème de
l’hétéroscédasticité. Le thème unificateur du chapitre concerne les moments de
la variable dépendante d’ordre supérieur à un. Dans le prochain chapitre, nous
continuerons de souligner le rôle des moments en introduisant une méthode
d’estimation importante appelée méthode des moments généralisée. Une
grande part des concepts couverts dans ce chapitre, tels que les HCCME
et les tests de moments conditionnels, y réapparaı̂tront.
Termes et Concepts
ARCH-en-moyenne (ARCH-M) moments empiriques
conditions de moment (conditionnel test de Goldfeld-Quandt pour
et non conditionnel) l’hétéroscédasticité
directions scédastiques test de White pour
estimateur de la matrice de covariance l’hétéroscédasticité
robuste à l’hétéroscédasticité tests de la matrice d’information
(HCCME) (tests IM)
hétéroscédasticité conditionnelle tests de spécification
autorégressive (ARCH) tests de moments conditionnels (tests
matrice de covariance OLS généralisée CM)
modèle ARCH(p) tests pour l’asymétrie et l’excès de
modèle ARCH généralisé (GARCH) kurtosis (aplatissement)
modèle GARCH(p,q)