Processus Stochastiques Discrets Et Filtrages Op

Processus stochastiques discrets
et filtrages optimaux
© LAVOISIER, 2005
LAVOISIER
11, rue Lavoisier
75008 Paris
www.hermes-science.com
www.lavoisier.fr
ISBN 2-7462-1201-3
Tous les noms de sociétés ou de produits cités dans cet ouvrage sont utilisés à des fins
d’identification et sont des marques de leurs détenteurs respectifs.
Le Code de la propriété intellectuelle n'autorisant, aux termes de l'article L. 122-5, d'une

part, que les "copies ou reproductions strictement réservées à l'usage privé du copiste et non
destinées à une utilisation collective" et, d'autre part, que les analyses et les courtes citations
dans un but d'exemple et d'illustration, "toute représentation ou reproduction intégrale, ou
partielle, faite sans le consentement de l'auteur ou de ses ayants droit ou ayants cause, est
illicite" (article L. 122-4). Cette représentation ou reproduction, par quelque procédé que ce
soit, constituerait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du
Code de la propriété intellectuelle.
Processus
stochastiques discrets
et filtrages optimaux
Jean-Claude Bertein
Roger Ceschi
A nos familles
TABLE DES MATIÈRES
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Chapitre 1. Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.1. Définitions et propriétés générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2. Les espaces L1(dP) et L2(dP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.2.1. Définitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.2.2. Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.3. Espérance mathématique et applications. . . . . . . . . . . . . . . . . . . . . . . . 35
1.3.1. Définitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.3.2. Fonctions caractéristiques d’un vecteur aléatoire. . . . . . . . . . . . . . 45
1.4. Variables et vecteurs aléatoires du second ordre . . . . . . . . . . . . . . . . . . 50
1.5. Indépendance linéaire des vecteurs de L2(dP) . . . . . . . . . . . . . . . . . . . . 57
1.6. Espérance conditionnelle (cas des vecteurs à densité) . . . . . . . . . . . . . . 61
1.7. Exercices du chapitre 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
Chapitre 2. Vecteurs gaussiens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

2.1. Quelques rappels sur les variables aléatoires gaussiennes . . . . . . . . . . . 71
2.2. Définition et caractérisation des vecteurs gaussiens. . . . . . . . . . . . . . . . 73
2.3. Résultats relatifs à l’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2.4. Transformation affine d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . 79
2.5. Existence des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.6. Exercices du chapitre 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
8 Processus stochastiques et filtrages optimaux
Chapitre 3. Généralités sur les processus à temps discret . . . . . . . . . . . . . . . 99

3.1. Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.2. Processus stationnaires du deuxième ordre et mesure spectrale. . . . . . . 111
3.2.1. Densité spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.3. Représentation spectrale d’un processus stationnaire
du deuxième ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.3.1. Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.3.2. Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.2.1. Processus à accroissements orthogonaux
et mesure associée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.3.2.2. Intégrale stochastique de Wiener . . . . . . . . . . . . . . . . . . . . 117
3.3.2.3. Représentation spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.4. Généralités sur le filtrage numérique . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.5. Exemple important : processus autorégressif . . . . . . . . . . . . . . . . . . . 131
3.6. Exercices du chapitre 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Chapitre 4. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

4.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
4.2. Estimation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.3. Meilleure estimation – Espérance conditionnelle. . . . . . . . . . . . . . . . . 156
4.4. Exemple : prédiction d’un processus autorégressif AR (1) . . . . . . . . . . 164
4.5. Processus multivariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Chapitre 5. Le filtre de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

5.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.1.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.2. Résolution et calcul du filtre Finite Impulse Response (FIR) . . . . . . . . 181
5.3. Evaluation de l’erreur minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
5.4. Résolution et calcul du filtre Infinite Impulse Response (IIR) . . . . . . . . 184
5.5. Evaluation de l’erreur minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Chapitre 6. Filtrage adaptatif : algorithme du gradient et du LMS . . . . . . 193

6.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.3. Représentation des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
6.4. Minimisation de la fonction coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.4.1. Calcul du coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
6.5. Algorithme du gradient. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
Table des matières 9
6.6. Estimation du gradient et algorithme LMS . . . . . . . . . . . . . . . . . . . . . 205

6.7. Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
6.8. Stabilité et convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.8.1. Convergence de l’algorithme du LMS . . . . . . . . . . . . . . . . . . . . 215
6.9. Exemple d’application de l’algorithme LMS . . . . . . . . . . . . . . . . . . . 215
6.10. Exercice du chapitre 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Chapitre 7. Le filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

7.2. Approche de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
7.2.1. Cas scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
7.2.2. Cas multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
7.3. Filtrage de Kalman. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.3.1. Equation d’état. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
7.3.2. Equation d’observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
7.3.3. Processus d’innovation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
7.3.4. Matrice de covariance du processus d’innovation . . . . . . . . . . . . 235
7.3.5. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
7.3.6. Equation de Riccati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
7.3.7. Algorithme et résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
7.3.8. Equations du filtre de Kalman dans le cas non linéaire. . . . . . . . . 247
Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
Table des symboles et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
AVANT-PROPOS
Le filtrage optimal discret appliqué aux signaux stationnaires et non stationnaires

permet de traiter de la manière la plus efficace possible, au sens du critère choisi,
tous les problèmes que l’on peut rencontrer dans les situations d’extraction de
signaux bruités.
Il constitue la brique élémentaire nécessaire dans les domaines les plus divers :
calcul des orbites ou de guidages d’aéronefs dans le domaine aérospatial ou
aéronautique, calcul de filtres dans le domaine des télécommunications ou dans le
domaine de la commande des systèmes ou encore dans celui des traitements de
signaux sismiques, la liste est non exhaustive.
De plus, l’étude et les résultats obtenus sur des signaux discrets permet une
implémentation très facile sur calculateur.
Dans leur ouvrage, les auteurs ont eu le souci permanent de la pédagogie et ils
l’ont souvent préférée à l’érudition ; tous les préliminaires mathématiques et
probabilistes utiles à la bonne compréhension du filtrage optimal ont été traités de
façon rigoureuse. Il ne sera pas toujours nécessaire d’avoir recours à d’autres
ouvrages pour acquérir une bonne connaissance des sujets étudiés.
Grâce à cet ouvrage, le lecteur pourra non seulement comprendre le filtrage

optimal discret mais pourra de plus approfondir aisément les différents aspects de ce
large domaine.
INTRODUCTION
Cet ouvrage a pour but de présenter les bases du filtrage optimal discret d’une
manière progressive et rigoureuse.
Le caractère optimal s’entend au sens où nous choisissons toujours le critère qui

minimise la norme –L2 de l’erreur.
Le premier chapitre aborde les vecteurs aléatoires, ses principales définitions et

propriétés.
Le second chapitre traite des vecteurs gaussiens. Etant donné l’importance

pratique de cette notion, les définitions et résultats sont accompagnés de nombreux
commentaires et schémas explicatifs.
Le troisième chapitre, « Généralités sur les processus à temps discrets », est de

nature plus physique que les précédents et peut être considéré comme une
introduction au filtrage numérique. Les résultats essentiels pour la suite seront
donnés.
Le chapitre 4, « Estimation », nous apporte les briques essentielles à la

construction des filtres optimaux. Les résultats obtenus sur les projections dans les
espaces de Hilbert constituent la clef de voûte des démonstrations à venir.
Le chapitre 5 traite du filtre de Wiener, dispositif électronique bien adapté au

traitement des signaux stationnaires du second ordre. Des calculs pratiques de tels
filtres, à réponse impulsionnelle finie ou infinie, seront développés.
Le filtrage adaptatif, qui est le sujet traité au chapitre 6, peut être considéré
comme une application assez directe de la méthode du gradient déterministe ou
stochastique. Au bout du processus d’adaptation ou de convergence, nous retrouvons
le filtre de Wiener.
L’ouvrage s’achève avec l’étude du filtrage de Kalman qui permet le traitement

des signaux stationnaires ou non stationnaires ; on peut dire que de ce point de vue,
il généralise le filtre optimal de Wiener.
Chaque chapitre est ponctué par une série d’exercices corrigés et des exemples
résolus sont également fournis en utilisant le logiciel Matlab bien adapté aux
problèmes de traitement de signaux.
CHAPITRE 1
Vecteurs aléatoires
1.1. Définitions et propriétés générales
{
On rappelle que ! n = x = ( x1 ,..., xn ) }
x j ∈ ! ; j = 1 a n , l’ensemble des
x, y → x + y et ( λ ,x ) → λ x
n -uples réels peut être muni de deux lois :
!n × !n !n ! × !n !n
qui en font un espace vectoriel de dimension n.
La base implicitement considérée sur !n sera la base canonique

e1 = (1, 0,..., 0 ) ,..., en = ( 0,..., 0,1) et x ∈ ! exprimé dans cette base sera noté :
n
⎛ x1 ⎞
⎜ ⎟
x = ⎜ " ⎟ (ou xT = ( x1 ,..., xn ) ).
⎜x ⎟
⎝ n⎠
Définition d’un vecteur aléatoire réel
⎛ X1 ⎞
⎜ ⎟
On dit que le vecteur réel X = ⎜ " ⎟ lié à un phénomène physique, biologique, etc.,
⎜X ⎟
⎝ n⎠
est aléatoire si la valeur prise par ce vecteur est inconnue, tant que le phénomène ne
s’est pas réalisé.
Pour des raisons typographiques, le vecteur sera plutôt écrit X T = ( X1 ,..., X n )

ou même X = ( X1 ,..., X n ) quand aucune confusion ne sera à craindre.
Autrement dit, étant donné un vecteur aléatoire X et Β ⊂ ! n on ne sait pas si

l’assertion (appelé événement) ( X ∈ Β ) est vraie ou fausse…
!n Β
.X
Par contre, on connaît en général la « chance » pour que X ∈ Β ; celle-ci est

notée Ρ ( X ∈ B ) et est appelée probabilité de l’événement ( X ∈ Β ).
Après la réalisation du phénomène, le résultat (appelé aussi réalisation) sera noté
⎛ x1 ⎞
⎜ ⎟
x = ⎜ " ⎟ ou xT = ( x1 ,..., xn ) ou même x = ( x1 ,..., xn )
⎜x ⎟
⎝ n⎠
quand aucune confusion ne sera à craindre.
Voici maintenant la définition rigoureuse d’un vecteur aléatoire réel de

dimension n . On se donne :
– Ω = espace fondamental. C’est l’ensemble de tous les résultats possibles
(ou épreuves) ω liés à un phénomène aléatoire ;
– a = une tribu (d’événements) sur Ω . On en rappelle les axiomes :
Vecteurs aléatoires 17
1) Ω ∈ a ,
2) si Α ∈ a alors le complémentaire Ac ∈ a ,
( )
3) si Α j , j ∈ J est une famille dénombrable d’événements ∪ A j est un
j∈J
événement, c’est-à-dire ∪ Aj ∈ a ;
j∈J
n
– ! = espace des observables ;
( )
– B ! n = tribu borélienne sur ! n ; c’est la plus petite tribu sur ! n qui
contient tous les ouverts de ! n.
DÉFINITION.– On dit que X est un vecteur aléatoire réel de dimension n défini sur
(Ω , a) si X est une application ( Ω , a ) → ! n ,B ! n ( ( )) mesurable, c’est-à-dire :
∀Β ∈ B ! n( ) Χ −1 ( Β ) ∈ a.
Quand n = 1 , on parlera de variable aléatoire ou plus rapidement de v.a.
Dans la suite l’événement Χ −1 ( Β ) est noté également {ω X (ω ) ∈ B et}

même plus simplement ( X ∈ B ) .
PROPOSITION.– Pour que X soit un vecteur aléatoire réel de dimension n (c’est-à-

dire une application (Ω , a) → ( ! ,B ( ! ) )
n n
mesurable), il faut et il suffit que
chaque composante Χ j j = 1 à n soit une v.a. réelle (c’est-à-dire soit une
application ( Ω , a ) → ( R,B ( R ) ) mesurable).
DÉMONSTRATION ABRÉGÉE.– Il suffit de considérer :
Χ −1 ( Β1 × ... × Β n ) où Β1 ,..., Β n ∈ B ( R )
( )
car on montre que B ! n = B ( R ) ⊗ ... ⊗ B ( R ) est égale à la tribu engendrée par
les pavés mesurables Β1 × ... × Β n .
Or X −1 ( Β1 × ... × Β n ) = X1−1 ( Β1 ) ∩ ... ∩ X n−1 ( Β n ) ,
qui appartient à a si et seulement si chaque terme appartient à a , c’est-à-dire si

chaque X j est une v.a. réelle.
DÉFINITION.– On dit que X = X1 + iX 2 est une variable aléatoire complexe définie

sur ( Ω , a ) si les parties réelles et imaginaires X1 et X 2 sont des variables réelles,
c’est-à-dire si les variables aléatoires X1 et X 2 sont des applications
( Ω, a ) → ( !, B ( ! ) ) mesurables.
PAR EXEMPLE.– A un vecteur aléatoire réel X = ( X1 ,..., X n ) et à un n-uple réel

u = ( u1 ,..., un ) ∈ ! n , on peut associer la v.a. complexe :
i∑ u j X j
e j
= cos ∑ u j X j + i sin∑ u j X j
j j
L’étude de cette variable aléatoire sera reprise quand nous définirons les
fonctions caractéristiques.
Loi
Loi Ρ X du vecteur aléatoire X .
On suppose d’abord que la tribu a est munie d’une mesure P , c’est-à-dire

d’une application P : a → [ 0,1] vérifiant :
1) P ( Ω ) = 1
( )
2) Pour toute famille A j , j ∈ J d’événements 2 à 2 disjoints :
⎛ ⎞
P ⎜ ∪ Aj ⎟ =
⎝ j∈J ⎠
∑ P ( Aj )
j∈J
DÉFINITION.– On appelle loi du vecteur aléatoire X, la « mesure image PX de P

par l’application X », c’est-à-dire la mesure définie sur B ( ! n ) de la façon
suivante : ∀Β ∈ B ! ( n)
(
PX ( Β ) = ∫ dPX ( x1 ,..., xn ) = P X −1 ( B )
Β ↑
)
Définition
= P ω ( )
X (ω ) ∈ Β = P ( X ∈ Β )
Les termes 1 et 2 d’une part et les termes 3, 4 et 5 d’autre part sont des notations
différentes de la même notion mathématique.
!n
X
X
−1
(B ) ∈ a B ∈B ( ! n )
Figure 1.1. Application mesurable X
Il faut bien noter que la mesure P étant donnée sur a, PX ( Β ) est calculable
( )
pour tout Β ∈ B ! n parce que X est mesurable.
( )
L’espace ! n muni de la tribu B ! n et ensuite de la loi PX est noté :
( ! ,B ( ! ) , P )
n n
X
REMARQUE.– Sur la définition naïve et sur la définition rigoureuse : la définition

naïve des vecteurs aléatoires est évidemment beaucoup plus simple et plus intuitive
et l’on peut s’en contenter dans les applications élémentaires du calcul des
probabilités.
Par contre dans les études plus théoriques ou plus sophistiquées et notamment
dans celles faisant intervenir plusieurs vecteurs aléatoires, X , Y , Z ,... , considérer ces
derniers comme des applications définies sur le même espace ( Ω, a ) ,
(soit X,Y,Z, ... : (Ω, a ) → ( ! ,B ( ! )))

n n
se révélera souvent utile voire même indispensable.
X (ω )
ω Y (ω )
Ω !n Z (ω )
Figure 1.2. Famille d’applications mesurables
En effet, via l’espace ( Ω, a,P ) , les expressions et calculs faisant intervenir

plusieurs (ou l’ensemble) de ces vecteurs s’écrivent sans ambiguïté. Précisément, les
événements liés à X , Y , Z ,... sont des éléments A de a (et les probabilités de ces
événements sont mesurés par P ).
Donnons deux exemples :
1) soit deux vecteurs aléatoires X , Y : ( Ω, a, P ) → ! , B !( n

( )) et soit
n
( )
B et B′ ∈ B ! n . L’événement ( X ∈ B ) ∩ (Y ∈ B′ ) (par exemple) se traduit
par X −1 ( B ) ∩ Y −1 ( B ′ ) ∈ a ;
( )
2) soit 3 v.a. X , Y , Z : ( Ω, a, P ) → !, B ( ! ) et soit a ∈ !*+ .
Cherchons à exprimer l’événement (Z ≥ a − X −Y ).
Posons U = ( X , Y , Z ) et B = {( x, y, z ) ∈ !3 x+y+z ≥ a }
B Borélien de !3, représente le demi espace délimité par le plan ( Π ) ne
contenant pas l’origine 0 et s’appuyant sur le triangle A B C .
C (a)
0
B (a)
A(a)
Figure 1.3. Exemple de Borélien de !3
(
U est ( Ω, a ) → !3 , B !3 ( ) ) mesurable et :
U ( Z ≥ a − X − Y ) = (U ∈ B ) = U −1 ( B ) ∈ a .
REMARQUE SUR L’ESPACE ( Ω, a, P ) .– On a dit que l’on se donnait Ω et puis a
sur Ω et puis P sur a et qu’ensuite, on considérait les vecteurs X , Y , Z ,...
comme des applications mesurables :
( Ω, a, P ) → ( ! n ,B ( ! n ) )
Cette façon d’introduire les différents concepts est la plus simple à appréhender,
mais elle correspond rarement aux problèmes probabilistes réels.
En général ( Ω, a, P ) n’est pas précisé ou bien donné antérieurement à

« X , Y , Z ,... applications mesurables ». Au contraire, étant données des grandeurs
n
aléatoires physiques, biologiques… X , Y , Z ,... de ! , c’est en partant de ces
dernières que l’on introduit simultanément ( Ω, a, P ) et X , Y , Z ,... applications
mesurables définies sur ( Ω, a, P ) . ( Ω, a, P ) est un espace artificiel destiné à
servir de lien entre X , Y , Z ,...
Ce qui vient d’être exposé peut sembler bien abstrait mais heureusement les
vecteurs aléatoires généraux comme ils viennent d’être définis sont rarement utilisés
dans la pratique.
En tout cas et en ce qui nous concerne, nous n’aurons dans la suite à manipuler
que la notion beaucoup plus particulière et plus concrète de « vecteur aléatoire à
densité ».
DÉFINITION.– On dit que la loi PX du vecteur aléatoire X est à densité si il existe

une application ( ( ) ) → ( !, B ( ! ) )
f X : ! n ,B ! n mesurable positive appelée
densité de PX telle que : ∀B ∈ B ( ! n ) .
P ( X ∈ B ) = PX ( B ) = ∫ dPX ( x1 ,..., xn ) = ∫ f X ( x1 ,..., xn ) dx1 ,..., dxn

B B
VOCABULAIRE.– On écrit parfois dPX ( x1 ,..., xn ) = f X ( x1 ,..., xn ) dx1 ,..., dxn

et on dit aussi que la mesure PX admet la densité f X par rapport à la mesure de
n
Lebesgue sur ! . On dit aussi que le vecteur aléatoire X admet la densité f X .
REMARQUE.– ∫B ( )
f X ( x1 ,...xn ) dx1 ,...dxn = P X ∈ ! n = 1 .
Soit par exemple le vecteur aléatoire X = ( X1 , X 2 , X 3 ) de densité

f X ( x1 , x2 , x3 ) = K x3 1∆ ( x1 , x2 , x3 ) où ∆ est la demi-sphère définie par
x12 + x22 + x32 ≤ R 2 avec x3 ≥ 0 .
On obtient facilement par un passage en coordonnées sphériques :
π R4 4
1= ∫∆ Kx3 dx1 dx2 dx3 = K
4
d’où K =
π R4
.
Marginales
⎛ X1 ⎞
⎜ ⎟
Soit le vecteur aléatoire X = ⎜ " ⎟ de loi PX et de densité de probabilité
⎜X ⎟
⎝ n⎠
fX .
DÉFINITION.– La v.a. X j , j ième composante de X , s’appelle j ième marginale de

ième
X et la loi PX j de X j s’appelle loi de la j marginale.
Si on connaît PX , on sait trouver les lois PX .

j
En effet ∀B ∈ B ( ! ) .
( ) (
P X j ∈ B = P ⎡⎣( X 1 ∈ ! ) ∩ ... ∩ X j ∈ B ∩ ... ∩ ( X n ∈ ! ) ⎤⎦ = )
∫ ( )
f X x1 ,..., x j ,..., xn dx1 ...dx2 ...dxn
! ×...× B ×...× !
par le théorème de Fubini :
= ∫ dx j ∫
B ! n−1
( $)
f X x1 ,..., x j ,..., xn dx1...dxn
%&% '
sauf dx j
L’égalité ayant lieu pour tout B , on obtient :
( )
fX j xj = ∫
! n−1
( )
f X x1 ,..., x j ,..., xn dx1...dxn .
$%&% '
sauf dx j
ATTENTION.– Réciproquement, sauf dans le cas des composantes indépendantes, la

connaissance des PX ⇒/ celle de PX .
j
EXEMPLE.– Considérons :
1) Un couple gaussien Z T = ( X , Y ) de densité de probabilité :
1 ⎛ x2 + y2 ⎞
f Z ( x, y ) = exp ⎜ − ⎟.
2π ⎜ 2 ⎟⎠
⎝
On obtient les densités des marginales :
+∞ 1 ⎛ x2 ⎞
f X ( x) = ∫ −∞ f z ( x, y ) dy =
2π
exp ⎜ −
⎜ 2
⎝
⎟ et
⎟
⎠
+∞ 1 ⎛ y2 ⎞
fY ( y ) = ∫ −∞ f z ( x, y ) dx =
2π
exp ⎜ −
⎜ 2 ⎟
⎝
⎟.
⎠
2) Un deuxième couple aléatoire (non gaussien) W T = (U , V ) dont la densité

de probabilité fW est définie par :
fW ( u, v ) = 2 f Z ( u, v ) si uv ≥ 0 fW ( u, v ) = 0 si uv < 0 .
Calculons les marginales
+∞ +∞
fU ( u ) = ∫ −∞ fW ( u , v ) dv = ∫ −∞ 2 f Z ( u, v ) dv si u ≤ 0
+∞
= ∫ −∞ 2 f Z ( u, v ) dv si u > 0
1 ⎛ u2 ⎞
D’où facilement fU ( u ) = exp ⎜ − ⎟ .
2π ⎜ 2 ⎟
⎝ ⎠
1 ⎛ v2 ⎞
Et symétriquement fV ( v ) = exp ⎜ − ⎟ .
2π ⎜ 2 ⎟
⎝ ⎠
CONCLUSION.– On voit bien sur cet exemple que les densités marginales (elles sont
identiques en 1 et 2) ne déterminent pas les densités des vecteurs (elles sont
différentes en 1 et 2).
Fonction de répartition
DÉFINITION.– On appelle fonction de répartition du vecteur aléatoire

X = ( X1 ,..., X n ) l’application :
T
FX : ( x1 ,..., xn ) → FX ( x1 ,..., xn )
!n [0,1]
définie par :
FX ( x1 ,..., xn ) = P ( ( X1 ≤ x1 ) ) ∩ ... ∩ ( X n ≤ xn )
et sous forme intégrale puisque X est un vecteur à densité :
x1 xn
FX ( x1 ,..., xn ) = ∫ ( ∫ f X ( u1 ,.., un ) du1.. dun .
−∞ −∞
Quelques propriétés usuelles :

– ∀j = 1 à n l’application x j → FX ( x1 ,..., xn ) est non décroissante ;
– FX ( x1 ,..., xn ) → ∞ quand toutes les variables x j → ∞ ;
– FX ( x1 ,..., xn ) → 0 si l’une au moins des variables x j → −∞ ;
∂ n FX
– si ( x1 ,..., xn ) → f X ( x1 ,..., xn ) est continue, alors = fX .
∂ xn ...∂ x1
EXERCICE.– Déterminer la fonction de répartition du couple ( X ,Y ) de densité

f ( x, y ) = K xy sur le rectangle ∆ = [1,3] × [ 2, 4] et préciser la valeur de K .
Indépendance
DÉFINITION.– On dit qu’une famille de v.a. : X 1 , ..., X n est une famille indépendante
si ∀ J ⊂ {1, 2,..., n} et pour toute famille de B j ∈ B ( ! ) :
⎛ ⎞
(
P⎜ ∩ X j ∈ Bj ⎟ = ) ∏ (
P X j ∈ Bj )
⎝ j∈J ⎠ j∈J
Comme ! ∈ B ( ! ) , il est aisé de vérifier en égalant certains boréliens à ! , que

la définition de l’indépendance est équivalente à la suivante :
⎛ n ⎞ n
∀B j ∈ B ( ! ) : P ⎜
⎜ ∩( X j ∈ Bj ) ∏ (
⎟=
⎟
P X j ∈ Bj )
⎝ j =1 ⎠ j =1
encore équivalente à :
n
∀B j ∈ B ( ! ) P ( X ∈ B1 × ... × Bn ) = ∏ P ( X j ∈ Bj )
j =1
C’est-à-dire en introduisant les lois de probabilités :
n
∀B j ∈ B ( ! ) PX ( B1 × ... × Bn ) = ∏ PX ( Bj ) . j
j =1
REMARQUE.– Cette dernière égalité est la définition de la loi de probabilité PX
(définie sur ( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! )) est le produit (tensoriel) des lois
de probabilités PX j (définies sur B ( ! ) ).
Ce qu’on écrit symboliquement PX = PX ⊗ ... ⊗ PX n .

1
ATTENTION.– Soit X 1 ,..., X n une famille de v.a. Si cette famille est indépendante,
les v.a. sont indépendantes 2 à 2, mais la réciproque est fausse.
PROPOSITION.– Soit X = ( X 1 ,..., X n ) un vecteur aléatoire réel admettant la

densité de probabilité f X et les composantes X 1 , ..., X n admettant les densités
f X ,..., f X n .
1
Pour que la famille des composantes soit une famille indépendante, il faut et il suffit
que :
n
f X ( x1 ,..., xn ) = ∏ fX (x j ) .
j
j =1
DÉMONSTRATION.– Dans le cas simplifié où f X est continue :

– si ( X1 ,..., X n ) est une famille indépendante :
⎛ n ⎞ n n
FX ( x1 ,..., xn ) = P ⎜
⎜ ∩(
X j ≤ xj ) ⎟⎟ = ∏ P ( X j ≤ x j ) = ∏ FX j ( x j )
⎝ j =1 ⎠ j =1 j =1
en dérivant les deux membres extrêmes :
∂ n FX ( x1 ,..., xn ) n
( )
∂FX j x j n
f X ( x1 ,..., xn ) =
∂xn ...∂x1
= ∏ ∂x j
= ∏
fX j x j ; ( )
j =1 j =1
n
– réciproquement si f X ( x1 ,..., xn ) = ∏ fX (x j ) : j
j =1
soit B j ∈ B ( ! ) pour j = 1 à n :
⎛ n ⎞ ⎛ n ⎞
(
P⎜ ∩ X j ∈ Bj ⎟ = P⎜ X ∈
⎜
) Bj ⎟ =
⎟ ∏ ∫ ∏n B j f X ( x1,..., xn ) dx1... dxn
⎝ j =1 ⎠ ⎝ J =1 ⎠ j =1
n n n
= n
∏ j ( x j ) dx j = ∏ ∫ B j f X j ( x j ) dx j = ∏ P ( X j ∈ B j )
∫ ∏ B j j =1 fX
j =1 j =1
j =1
n
REMARQUE.– L’égalité f X ( x1 ,..., xn ) = ∏ f X j ( x j ) est la définition de la fonction
j =1
de n variables f X est le produit tensoriel des fonctions d’une variable f X . On écrit

j
symboliquement f X = f X ⊗ ... ⊗ f X n . (A ne pas confondre avec le produit

1
ordinaire : f = f1 f 2 i(i f n défini par : f ( x ) = f1 ( x ) f 2 ( x )i(i f n ( x ) ).
EXEMPLE.– Soit le couple aléatoire X = ( X 1 , X 2 ) de densité :
1 ⎛ x 2 + x22 ⎞
exp ⎜ − 1 ⎟.
2π ⎜ 2 ⎟
⎝ ⎠
1 ⎛ x 2 + x22 ⎞ 1 ⎛ x2 ⎞ 1 ⎛ x22 ⎞
Comme exp ⎜ − 1 ⎟= exp ⎜ − ⎟ ⎜− ⎟
2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
1 ⎛ x2 ⎞ 1 ⎛ x2 ⎞
et comme exp ⎜ − 1 ⎟ et exp ⎜ − 2 ⎟ sont les densités de X 1 et de X 2 ,
2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟
⎝ ⎠ ⎝ ⎠
ces deux composantes X 1 et X 2 sont indépendantes.
DÉFINITION.– On dit que deux vecteurs aléatoires :
X = ( X 1 ,..., X n ) et Y= (Y1 ,..., Yp )
sont indépendants si :
( )
∀B ∈ B ! n et B ' ∈ B ! p ( )
P ( ( X ∈ B ) ∩ (Y ∈ B ' ) ) = P ( X ∈ B ) P (Y ∈ B ' )
Somme de variables aléatoires indépendantes
REMARQUE.– On est souvent amené à calculer la probabilité P pour qu’une

fonction de n v.a. données X 1 ,..., X n vérifie une certaine inégalité. Notons
rapidement P (Inégalité) cette probabilité. Supposons que le vecteur aléatoire
X = ( X 1 ,..., X n ) possède une densité de probabilité f X ( x1 ,..., xn ). La

méthode pour obtenir P (Inégalité) consiste à déterminer B ∈ B ! ( n ) vérifiant
( X1,..., X n ) ∈ B .
On a alors : P (Inégalité) = ∫ B f X ( x1,..., xn ) dx1... dxn .
EXEMPLES.–
1) P ( X 1 + X 2 ≤ z ) = P ( ( X1, X 2 ) ∈ B ) = ∫ B f X ( x1, x2 ) dx1 dx2

où B = {( x, y ) ∈ ! 2
x+ y ≤ z }
y
0
z x
2) P ( X 1 + X 2 ≤ a − X 3 ) = P ( ( X1 , X 2 , X 3 ) ∈ B )
= ∫ f X ( x1 , x2 , x3 ) dx1 dx2 dx3
B
0 x
y
B
A
1
B est le espace contenant l’origine 0 et limité par le plan s’appuyant sur le
2
triangle A B C et d’équation x + y + z = a .
(
3) P Max ( X1 + X 2 ) ≤ z ) = P ( ( X1, X 2 ) ∈ B )
= ∫ f X ( x1 , x2 ) dx1 dx2
B
où B est le domaine non hachuré ci-contre.
z
0
x
z
En partant de l’exemple 1) nous allons montrer la :
PROPOSITION.– Soit X et Y deux v.a. réelles indépendantes de densités de

probabilités respectives f X et fY .
La v.a. Z = X + Y admet une densité de probabilité f Z définie par :
+∞
f Z ( z ) = ( f X ∗ fY )( z ) = ∫ f X ( x ) fY ( z − x ) dx .
−∞
DÉMONSTRATION.– Partons de la fonction de répartition de Z.
FZ ( z ) = P ( Z ≤ z ) = P ( X + Y ≤ z ) = P ( ( X , Y ) ∈ B )
(où B est défini dans l'exemple 1) ci-avant)
= ∫ f ( x, y ) dx dy = (Indépendance) ∫ f X ( x ) fY ( y ) dx dy
B B
z x+ y = z
z−x
0
x
x z
+∞ z−x
=∫ f X ( x ) dx ∫ fY ( y ) dy.
−∞ −∞
En posant y = u − x :
+∞ z z +∞
=∫ f X ( x ) dx ∫ fY ( u − x ) du = ∫ du ∫ f X ( x ) fY ( u − x ) dx.
−∞ −∞ −∞ −∞
+∞
L’application u → ∫ −∞ f X ( x ) fY ( u − x ) dx étant continue, FZ ( z ) en est
une primitive et :
+∞
FZ′ ( z ) = f Z ( z ) = ∫ f X ( x ) fY ( z − x ) dx .
−∞
+
REMARQUE.– Si (par exemple) f X et fY sont à support sur ! , c’est-à-dire si
f X ( x ) = f X ( x )1 [0,∞[ ( x ) et fY ( y ) = fY ( y ) 1 [0,∞[( y )
on a facilement :
z
f Z ( z ) = ∫ f X ( x ) fY ( z − x ) dx .
0
EXEMPLE.– X et Y sont deux v.a. exponentielles de paramètre λ et

indépendantes.
Posons Z = X + Y :
Pour z ≤ 0 fZ ( z ) = 0 .
Pour z ≥ 0
+∞
f X ( x ) fY ( z − x ) dx = ∫ λ e ( ) dx = λ 2 ze− λ z
z
fZ ( z ) = ∫
−λ z − x
−∞ 0
et f Z ( z ) = λ z e 1[0,∞[ ( z ) .
2 −λ z
1.2. Les espaces L ( dP ) et L ( dP )

1 2
1.2.1. Définitions
La famille des v.a. X : ω → X (ω )
( Ω, a,P ) ( !, B ( ! ) )
forme un espace vectoriel sur ! , noté ε.

Deux sous-espaces vectoriels de ε jouent un rôle particulièrement important ;
nous les définissons.
Les définitions seraient en fait l’aboutissement de la construction de l’intégrale

de Lebesgue des applications mesurables, mais cette construction ne sera pas donnée
ici… et on pourra sans inconvénient s’en passer dans la suite.
DÉFINITION.– On dit que deux variables aléatoires X et X ′ définies sur ( Ω, a )

sont égales presque sûrement et on écrit X = X ′ p.s. si X = X ' sauf
éventuellement sur un événement N ( N élément de a ) de probabilité nulle
( c'est-à-dire N ∈ a et P ( N ) = 0 ) .
On note :
– X+ = {classe (d’équivalence) des v.a. X ′ égales presque sûrement à X } ;
– O+ = {classe (d’équivalence) des v.a. égales presque sûrement à 0 }.
Nous pouvons maintenant donner la :

– définition de L ( dP ) espace vectoriel de variables aléatoires du premier
1
ordre ;
– et celle de L ( dP ) espace vectoriel de variables aléatoires du second
2
ordre :
{
L1 ( dP ) = v. a. X ∫ Ω X (ω ) dP (ω ) < ∞}
L ( dP ) = {
2
v. a. X ∫Ω X (ω ) dP (ω ) < ∞ }
2
où, dans ces expressions, les v.a. sont bien définies à un événement de probabilité
nulle près, ou bien : les v.a. X sont des représentants quelconques des classes X+ ,
car, par construction les intégrales des v.a. ne sont pas modifiées si on modifie ces
dernières sur des événements de probabilités nulles.
Remarque sur l’inégalité ∫ Ω X (ω ) dP (ω ) < ∞ .
Introduisant les deux variables aléatoires positives :
X + = Sup ( X , 0 ) et X − = Sup ( − X , 0 )
+
On peut écrire X = X − X − et X = X + + X − .
Soit X ∈ L ( dP ) , on a donc :
1
∫ Ω X (ω ) dP (ω ) < ∞ ⇔ ∫ Ω X (ω ) dP (ω ) < ∞
+
et
∫ Ω X (ω ) dP (ω ) < ∞.
−
Donc, si X ∈ L ( dP ) , l’intégrale :
1
∫ Ω X (ω ) dP (ω ) = ∫ Ω X (ω ) dP − ∫ Ω X (ω ) dP (ω )
+ −
est définie sans ambiguïté.
REMARQUE.– L
2
( dP ) ⊂ L1 ( dP )
En effet, soit X ∈ L
2
( dP ) , d’après l’inégalité de Schwarz :
(∫ ) ≤∫
2
X (ω ) dP (ω ) X 2 (ω ) dP ∫ dP (ω ) < ∞
Ω Ω Ω
$%&% '
1
1 ⎛ 1 ⎛ x − m ⎞2 ⎞
EXEMPLE.– Soit X une v.a. gaussienne (densité exp ⎜ − ⎜ ⎟ ⎟ ).
2πσ ⎝ 2⎝ σ ⎠ ⎠
Elle appartient à L ( dP ) et à L ( dP ) .
1 2
1
soit Y une v.a. de Cauchy : (densité ).
(
π 1 + x2 )
Elle n’appartient pas à L ( dP ) et elle n’appartient donc pas à L ( dP )
1 2
non
plus.
1.2.2. Propriétés
1) L ( dP ) est un espace de Banach ; nous n’utiliserons pas cette propriété

1
dans la suite ;
2) L
2
( dP ) est un espace de Hilbert. On donne ici les propriétés sans
démonstration.
*On peut munir L

2
( dP ) du produit scalaire défini par :
∀ X , Y ∈ L2 ( dP ) < X,Y > = ∫ X (ω ) Y (ω ) dP (ω ).
Ω
Cette expression est bien définie car d’après l’inégalité de Schwarz :
∫Ω X (ω ) Y (ω ) dP (ω ) ≤ ∫ X 2 (ω ) dP (ω ) ∫ Y 2 (ω ) dP (ω ) < ∞
Ω Ω
et les axiomes du produit scalaire sont immédiats à vérifier.
*L
2
( dP ) est un espace vectoriel normé par :
∫ Ω X (ω ) dP (ω ) .
2
X = < X, X > =
Il est facile de vérifier que :
∀ X , Y ∈ L2 ( dP ) X +Y ≤ X + Y
∀ X ∈ L2 ( dP ) et ∀λ ∈ ! λX = λ X
En ce qui concerne le dernier axiome :

– si X = 0 ⇒ X =0;
– si X = (∫ Ω )
X 2 (ω ) dP (ω ) = 0 ⇒ X = 0 p.s. ou X+ = 0+ ( )
*L
2
( dP ) est un espace complet pour la norme . définie ci-avant. (Toute
suite de Cauchy X n converge vers une X de L
2
( dP )).
1.3. Espérance mathématique et applications
1.3.1. Définitions
On considère un vecteur aléatoire général (non nécessairement à densité) :
X = ( X1 ,..., X n ) : ( Ω, a , P ) → ( ! n , B ( ! n ) ) .
On se donne par ailleurs une application mesurable :
(
Ψ : ! n , B !n ( ) ) → ( !, B ( ! ) )
Ψ , X (notée aussi Ψ ( X ) ou Ψ ( X 1 ,..., X n )) est une application mesurable
(donc une v. a.) définie sur ( Ω, a ) .
DÉFINITION.– Sous l’hypothèse Ψ , X ∈ L1 ( dP ) , on appelle espérance

mathématique de la valeur aléatoire Ψ , X l’expression Ε ( Ψ , X ) définie par :
E (Ψ , X ) = ∫ ( Ψ , X )(ω ) dP (ω )
Ω
ou, pour rappeler que X est un vecteur :
E ( Ψ ( X 1 ,..., X 2 ) ) = ∫ Ψ ( X1 (ω ) ,..., X n (ω ) ) dP (ω ) .
Ω
REMARQUE.– Cette définition de l’espérance mathématique de Ψ , X est bien

adaptée aux problèmes généraux ou à orientation théorique ; en particulier, c’est en
utilisant celle-ci que l’on construit L
2
( dP ) l’espace de Hilbert des v.a. du
deuxième ordre.
En pratique cependant, c’est la loi PX (image de la mesure P par l’application

X ) et non P que l’on connaît. On veut donc utiliser la loi PX pour exprimer
E ( Ψ , X ), on dit que l’on transfert le calcul de E ( Ψ , X ) de l’espace
( Ω, a, P ) à l’espace ( !n , B ( !n ) , PX ).
Pour simplifier l’écriture dans le théorème qui suit (et comme souvent dans la
suite) ( X 1 ,..., X n ) , ( x1 ,..., xn ) et dx1...dxn seront souvent notés respectivement
X , x et dx.
Théorème de transfert
Supposons Ψ , X ∈ L ( dP ) , on a alors :
1
1) E ( Ψ , X ) = ∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x )
En particulier si PX admet une densité f X :
E (Ψ , X ) = ∫ Ψ ( x ) f X ( x ) dx et E X = ∫ x f X ( x ) dx ;
!n !
2) Ψ ∈ L ( dPX )
1
DÉMONSTRATION.–
– l’égalité du 2) est vraie si Ψ = 1B avec B ∈ B !n ( ) car
E ( Ψ , X ) = E (1B , X ) = PX ( B )
=∫ 1
!n B
( x ) dPX ( x ) = ∫ !n Ψ ( x ) dPX ( x )
– l’égalité est encore vraie si Ψ est une fonction étagée c’est-à-dire si
m
j =1
j
( )
Ψ = ∑ λ j 1B où les B j ∈ B ! n et sont disjoints 2 à 2.
On a en effet :
( )
m m
Ε ( Ψ , X ) = ∑ λ j Ε 1B , X = ∑ λ j PX ( B j )
j
j =1 j =1
m ⎛ m ⎞
= ∑λj ∫ n 1B ( x ) dPX ( x ) = ∫ !n ⎜ ∑ λ j 1B j ( x ) ⎟ dPX ( x )
!
j =1
j
⎝ j =1 ⎠
=∫ n Ψ ( x ) dPX ( x )
!
Supposons maintenant que Ψ soit une fonction mesurable positive, on sait

qu’elle est limite d’une suite croissante de fonctions étagées positives Ψ P .
On a donc ⎜
⎛
∫ Ω ( Ψ P , X )(ω ) = ∫ !n Ψ p ( x ) dPX ( x )
⎜ avec Ψ - Ψ
⎝ P
Ψ p , X est également une suite croissante positive qui converge vers Ψ , X

et en prenant les limites des deux membres quand p ↑ ∞ , on obtient d’après le
théorème de la convergence monotone :
∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x ) .
Si Ψ est une application mesurable quelconque on utilise encore la
+ −
décomposition Ψ = Ψ − Ψ et Ψ = Ψ + + Ψ − .
+ −
Il est par ailleurs clair que ( Ψ , X ) = Ψ , X et ( Ψ , X ) = Ψ , X .
+ −
Il vient :
+
E Ψ , X = E (Ψ , X ) + E (Ψ , X ) = E Ψ+ , X + E Ψ− , X .
−
( ) ( )
C’est-à-dire d’après ce qui précède :
=∫ Ψ + ( x ) dPX ( x ) + ∫ Ψ − ( x ) dPX ( x ) = ∫ Ψ ( x ) dPX ( x ) .

!n !n !n
Comme Ψ , X ∈ L ( dP ) , on en déduit que Ψ ∈ L ( dPX ) (réciproquement

1 1
si Ψ ∈ L ( dPX ) alors Ψ , X
1
∈ L1 ( dP ) ).
+ −
En particulier E ( Ψ , X ) et E ( Ψ , X ) sont finis, et
(
E ( Ψ , X ) = E Ψ+ , X − E Ψ− , X ) ( )
=∫ Ψ + ( x ) dPX ( x ) − ∫ Ψ − ( x ) dPX ( x )
!n !n
=∫ Ψ ( x ) dPX ( x )
!n
REMARQUE.– (qui prolonge la remarque précédente) : Dans certains ouvrages la

notion de « vecteur aléatoire comme application mesurable », jugée trop abstraite
n’est pas développée.
Dans ce cas l’intégrale ∫ Ψ ( x ) dPX ( x ) = ∫ !n Ψ ( x ) f X ( x ) dx (si PX
admet la densité f X ) est donnée comme définition de E ( Ψ , X ).
EXEMPLES.–
1) Soit le « vecteur aléatoire gaussien » X

T
= ( X1 , X 2 ) de densité :
⎛ 1 1 ⎞
f X ( x1 , x2 ) =
1
exp ⎜−
⎝ 2 1-ρ
2 (
x12 − 2 ρ x1 x2 + x22 ⎟ )
2π 1 − ρ 2 ⎠
où ρ ∈ ]−1,1[ et soit l’application Ψ : ( x1 , x2 ) → x1 x2 .

3
La condition :
⎛ ⎞
∫! x1 x23
1
exp ⎜ −
1
(x
2
)
− 2 ρ x1 x2 + x22 ⎟ dx1 dx2 < ∞
2π 1 − ρ 2 ⎝ (
⎜ 2 1− ρ 2 ) 1
⎟
⎠
est facilement vérifiée et :
⎛ ⎞
EX1 X 23 = ∫ x x3
1
exp ⎜ − x 2
−
1
2 ρ x x (+ x 2 ⎟
dx dx )
! 2 1 2
2π 1 − ρ 2 ⎜ 2 1− ρ 2 1
⎝ ( )
1 2 2
⎟ 1 2
⎠
1 1
2) Soit une variable aléatoire de Cauchy de densité f X ( x ) =
π 1 + x2
1 1
donc X ∉ L ( dP )
π ∫ ! 1 + x2
1
x dx = +∞ et EX n’est pas définie.
Considérons ensuite la transformation Ψ qui consiste à « redresser et à écrêter »

la v.a. X .
x
−K 0 K
Figure 1.4. Opération de redressement et d’écrêtage
K 1 −K K ∞ K
∫ ! Ψ ( x ) dPX ( x ) = ∫ − K x 1 + x 2 dx + ∫ −∞ 1 + x 2 dx + ∫ K 1 + x2 dx
⎛π
( ) ⎞
= ln 1 + K 2 + 2 K ⎜ − K ⎟ < ∞
⎝2 ⎠
Donc Ψ , X ∈ L ( dP ) et :
1
⎛π
( ) ⎞
+∞
E (Ψ , X ) = ∫ Ψ ( x ) dPX ( x ) = ln 1 + K 2 + 2 K ⎜ − K ⎟ .
−∞ ⎝2 ⎠
DÉFINITION.– Etant données np v.a. X jK ( j = 1 à p, k = 1 à n ) de L1 ( dP ) ,

⎛ X 11 … X 1n ⎞
⎜ ⎟
on définit l’espérance de la matrice ⎡⎣ X jk ⎤⎦ = ⎜ " " ⎟ par :
⎜ X p1 ( X pn ⎟
⎝ ⎠
⎛ EX 11 … EX1n ⎞
⎜ ⎟
E ⎡⎣ X jk ⎤⎦ = ⎜ " " ⎟.
⎜ EX p1 ( EX pn ⎟
⎝ ⎠
En particulier : étant donné un vecteur aléatoire :
⎛ X1 ⎞
⎜ ⎟
( )
X = ⎜ " ⎟ ou X T = ( X 1 ,..., X n ) vérifiant X j ∈ L1 ( dP ) ∀j = 1 à n
⎜X ⎟
⎝ n⎠
⎛ EX 1 ⎞
On pose E [ X ] =
⎜ ⎟
(
⎜ " ⎟ ou E ⎣ X ⎦ = ( EX1 ,..., EX n ) .
⎜ EX ⎟
⎡ T⎤ )
⎝ 2⎠
Espérance mathématique d’une v.a. complexe
DÉFINITIONS.– Etant donnée une v.a. complexe X = X 1 +i X 2 , on dit que :
X ∈ L1 ( dP ) si X1 et X 2 ∈ L1 ( dP ).
Si X ∈ L ( dP ) on définit son espérance mathématique par :

1
E ( X ) = EX 1 + i EX 2 .
Transformation des vecteurs aléatoires
On considère un vecteur aléatoire réel X = ( X 1 ,..., X n ) de densité de

probabilité f X ( x )1D ( x ) = f X ( x1 ,..., xn ) 1D ( x1 ,..., xn ) où D est un ouvert
n
de ! .
On se donne par ailleurs l’application :
α : x = ( x1 ,..., xn ) → y = α ( x ) = (α1 ( x1 ,..., xn ) ,...,α n ( x1 ,..., xn ) )

D ∆
On suppose que α 1
est un C – difféomorphisme de D sur un ouvert ∆ de
! n , c’est-à-dire que α est bijective et que α et β = α −1 sont de classe C1.
α
X Y =α (X )
D ∆
Figure 1.5. Transformation d’un vecteur aléatoire X par un C1 − difféomorphisme
Le vecteur aléatoire Y = (Y1 ,..., Yn ) = (α1 ( X1,..., X n ) ,...,α n ( X1,..., X n ) )

prend ses valeurs sur ∆ et on veut déterminer fY ( y )1∆ ( y ) sa densité de
probabilité.
PROPOSITION.–
fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y )
DÉMONSTRATION.–
Soit :
Ψ ∈ L1 ( dy ) E ( Ψ ( y )) = ∫ Ψ ( y ) fY ( y )1∆ ( y ) dy.
!n
Par ailleurs :
E ( Ψ ( Y ) ) = E Ψ (α ( X ) ) = ∫ Ψ (α ( x ) ) f X ( x )1D ( x ) dx.
!n
Par application du théorème du changement de variables dans les intégrales

multiples et en notant par J β ( y ) la matrice jacobienne de l’application β , il
vient :
=∫ Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) dy.
!n
Finalement, l’égalité :
∫ ! n Ψ ( y ) fY ( y )1∆ ( y ) dy
= ∫ n Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) dy
!
ayant lieu pour tout Ψ ∈ L ( dy ) , on en déduit par le lemme de Haar la formule

1
cherchée :
fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) .
EN PARTICULIER.– Soit X est une v.a. et soit l’application α : x → α ( x)

D⊂! ∆⊂!
l’égalité devient fY ( y )1∆ ( y ) = f X ( β ( y )) β ′ ( y ) 1∆ ( y ) .

EXEMPLE.– Soit le couple aléatoire Z = ( X , Y ) de densité de probabilité :
1
f Z ( x, y ) = 2 2
1D ( x, y ) où D = ]1, ∞[ × ]1, ∞[ ⊂ ! 2
x y
1
On se donne par ailleurs le C – difféomorphisme α :
défini par :
⎛ α : ( x, y ) → ( u = α1 ( x, y ) = xy , v = α 2 ( x, y ) = x y )
⎜ / $%%%%%%%
%&%%%%%%%%
'
∈D ∈∆
⎜
⎜
⎜
⎜⎜ / ($%%%%%%%%&%%%%%%%%')
β : ( u, v ) → x = β1 ( u, v ) = uv , y = β 2 ( u, v ) = u v
∈∆
⎝ ∈D
⎛ v u ⎞
1
⎜ u v ⎟ 1
J β ( u, v ) = ⎜ u⎟
⎟ et Dét J β ( u, v ) = .
2⎜ 1 − 3 2 v
⎜ uv ⎟
⎝ v 2⎠
(
Le vecteur W = U = X Y , V = X
Y ) admet donc la densité de probabilité :
fW ( u , v ) 1∆ ( u , v ) = f Z ( β1 ( u , v ) , β 2 ( u , v ) ) Dét J β ( u , v ) 1∆ ( u , v )
1 1 1 1
= 1∆ ( u , v ) = 1∆ ( u , v )
( ) ( )
2 2 2
uv u 2v 2u v
v
REMARQUE.– Réciproquement le vecteur W = (U , V ) de densité de probabilité

fW ( u , v ) 1∆ ( u , v ) et dont les composantes sont dépendantes est transformé par
β en vecteur Z = ( X , Y ) de densité de probabilité f Z ( x, y ) 1D ( x, y ) et dont
les composantes sont indépendantes.
1.3.2. Fonctions caractéristiques d’un vecteur aléatoire
DÉFINITION.– On appelle fonction caractéristique du vecteur aléatoire :
X T = ( X1 ... X n ) l’application ϕ X : ( u1 ,..., u2 ) → ϕ X ( u1 ,..., u2 ) définie par :

!n 0
⎛ n ⎞
ϕ X ( u1 ,..., un ) = E exp ⎜ i ∑ u j X j ⎟
⎜ j =1 ⎟
⎝ ⎠
⎛ n ⎞
= ∫ n exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,...xn ) dx1... dxn
! ⎜ j =1 ⎟
⎝ ⎠
(On a écrit la définition de E Ψ ( X 1 ,..., X n ) avec :
⎛ n ⎞
Ψ ( X 1 ,..., X n ) = exp ⎜ i ∑ u j X j ⎟
⎜ j =1 ⎟
⎝ ⎠
et on a appliqué le théorème sur l’intégration par rapport à la mesure image).
ϕX est donc la transformée de Fourier de f X (ϕ X = F ( f X ) ).

En analyse on écrirait plutôt :
⎛ n ⎞
F ( f X )( u1 ,..., un ) = ∫
!n
exp ⎜⎜ − i ∑ u j x j ⎟⎟ f X ( u1 ,..., un ) dx1... dxn .
⎝ j =1 ⎠
Quelques propriétés usuelles de la transformée de Fourier :

– ϕ X ( u1 ,...u2 ) ≤ ∫ f X ( x1 ,..., xn ) dx1... dxn = ϕ X ( 0,..., 0 ) = 1 ;
!n
– l’application ( u1 ,..., u2 ) → ϕ X ( u1 ,..., u2 ) est continue ;

!n 0
– l’application F : f X → ϕ X est injective.
Exemple très simple :
Le vecteur aléatoire X prend ses valeurs dans l’hypercube ∆ = −1,1 [ ]n et il admet

une densité de probabilité :
1
f X ( x1 ,..., xn ) = 1∆ ( x1,..., xn )
2n
(noter que les composantes X j sont indépendantes).
1
ϕ ( u1 ,..., un ) = exp i ( u1 x1 + ... + un xn ) dx1...dxn
2n ∫ ∆
n sin u
1 n +1
= n ∏ ∫ exp ( iu j x j ) dx j = ∏
j
2 j =1 −1 j =1 uj
où, dans cette dernière expression et grâce aux prolongements par continuité, on
remplace :
sin u1 sin u2
par 1 si u1 = 0 , par 1 si u2 = 0 ,...
u1 u2
Inversion de la transformée de Fourier
F
fX F −1 ϕX
On a, comme on le verra, de bonnes raisons (calculs simplifiés) d’étudier

certaines questions en utilisant les fonctions caractéristiques plutôt que les densités
de probabilités, mais on a souvent besoin de revenir aux densités ; le problème qui
se pose est celui de l’inversibilité de la transformée de Fourier F , étudiée dans les
cours spécialisés.
Rappelons simplement ici une condition suffisante :
PROPOSITION.– Si ∫ !n ϕ X ( u1,..., un ) du1...dun < ∞

(c’est-à-dire ϕ X ∈ L1 ( du1...dun ) ), alors F −1 existe et :
1 ⎛ n ⎞
f X ( x1 ,..., xn ) = ∫! n exp ⎜ −i
⎜ ∑ j j ⎟⎟ ϕ X
u x ( u1 ,..., un ) du1...dun
( 2π )n ⎝ j =1 ⎠
En outre l’application ( x1 ,..., xn ) → f X ( x1 ,..., xn ) est continue.
EXEMPLE.– Soit une v.a. gaussienne X ∼ Ν m, σ ( 2

).
1 ⎛ 1 ⎛ x − m ⎞2 ⎞
C’est-à-dire que f X ( x ) = exp ⎜ − ⎜ ⎟ et supposons σ ≠ 0
2πσ ⎜ 2 ⎝ σ ⎟⎠ ⎟
⎝ ⎠
⎛ uσ ⎞
2 2
on obtient ϕ X ( u ) = exp ⎜ ium − ⎟.
⎝ 2 ⎠
1 +∞
Il est clair que ϕ X ∈ L1 ( du ) et f X ( x ) = ∫ −∞ exp ( −iux ) ϕ X ( u ) du .
2π
Propriétés et applications des fonctions caractéristiques
1) Indépendance
PROPOSITION.– Pour que les composantes X j du vecteur aléatoire
X T = ( X 1 ,..., X n ) soient indépendants, il faut et il suffit que :

n
ϕ X ( u1 ,..., un ) = ∏ ϕ X ( u j ) .
j
j =1
DÉMONSTRATION.–
Condition nécessaire :
⎛ n ⎞
ϕ X ( u1 ,..., un ) = ∫
!n
exp
⎜ ∑
⎜ i u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn .
⎟
⎝ j =1 ⎠
Grâce à l’indépendance :
⎛ n ⎞ n n
= ∫ !n
exp
⎜∑
⎜i u j xj ⎟
⎟ ∏ j ( x j ) dx1... dxn = ∏ϕ X (u j ) .
fX j
⎝ j =1 ⎠ j =1 j =1
CONDITION SUFFISANTE.– On part de l’hypothèse :
⎛ n ⎞
!n∫exp
⎜ ∑
⎜ i u j x j ⎟ f x ( x1 ,..., xn ) dx1... dxn
⎟
⎝ j =1 ⎠
⎛ n ⎞
! ∫ ⎜ ∑
= n exp ⎜ i u j x j ⎟
⎟ ∏ ( )
f X x j dx1... dxn
j
⎝ j =1 ⎠
n
D’où on déduit : f X ( x1 ,..., xn ) = ∏ f X j ( x j ) , c’est-à-dire l’indépendance,
j =1
puisque la transformation de Fourier f X F ϕX est injective.

REMARQUE.– On ne confondra pas ce résultat avec celui qui concerne la somme de

v.a. indépendantes et qui s’énonce de la manière suivante.
n
Si X 1 ,..., X n sont des v. a. indépendantes alors ϕ∑ X
j
(u ) = ∏ϕ X j (u )
j j =1
Soient par exemple n variables aléatoires indépendantes :
( )
X 1 ∼ Ν m1 , σ 2 ,..., X n ∼ Ν mn , σ 2 ( )
et soient n constantes réelles λ1 ,..., λn.
n
La remarque nous permet de déterminer la loi de la valeur aléatoire ∑λj X j .
j =1
En effet les v.a. λj X j sont indépendantes et :
n n n 1
iuλ j m j − u 2 λ 2j σ 2j
ϕ∑
λ X
( u ) = ∏ ϕλ j X j ( u ) = ∏ ϕ X j λ j u = ∏ e( ) 2
j j j j =1 j =1 j =1
1
iu ∑ λ j m j − u 2 ∑ λ 2j σ 2j
2
=e j j
n ⎛ ⎞
donc ∑ λ j X j ∼ Ν ⎜ ∑ λ j m j , ∑ λ 2j σ 2j ⎟ .
⎜ ⎟
j =1 ⎝ j j ⎠
2) Calcul des moments (jusqu’au 2e ordre par exemple)
Supposons ϕ X ∈ C 2 !n . ( )
En appliquant une fois le théorème de Lebesgue de dérivation sous signe somme
(dont les hypothèses sont immédiates à vérifier) il vient :
∂ϕ X
∀K = 1 à n ( 0,..., 0 )
∂u X
⎛ ⎛ ⎞ ⎞
= ⎜ ∫ n ixK exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn ⎟
⎜ ! ⎜ j ⎟ ⎟
⎝ ⎝ ⎠ ⎠( u1 = 0,...,un = 0 )
= i∫ xK f X ( x1 ,..., xn ) dx1...dxn = i E X K
!n
∂ϕ X
Soit E X K = −i ( 0, ..., 0 ) .
∂u K
En appliquant ce théorème une deuxième fois, il vient :
∂ 2ϕ X
∀ k et 2 ∈ (1, 2, ..., n ) EX K X 2 = ( 0,..., 0 ).
∂u2 ∂uK
1.4. Variables et vecteurs aléatoires du second ordre
Commençons par rappeler les définitions et propriétés usuelles relatives aux

variables aléatoires du 2e ordre.
DÉFINITIONS.– Etant donné X ∈ L2 ( dP ) de densité de probabilité fX ,

2
E X et E X ont un sens. On appelle variance de X l’expression :
Var X = E X − ( E X ) = E ( X − E X ) .
2 2 2
On appelle écart type de X l’expression σ ( X ) = Var X .
Soit maintenant deux v.a. X et Y ∈ L

2
( dP ) . En utilisant le produit scalaire
< , > sur L ( dP ) défini en 1.2. on a :
2
E X Y = < X , Y > = ∫ X (ω ) Y (ω ) dP (ω )
Ω
et, si le vecteur Z = ( X , Y ) admet la densité f Ζ , alors :
E XY =∫ xy f Z ( x, y ) dx dy.
!2
On a déjà constaté, en appliquant l’inégalité de Schwarz, que E X Y a bien un

sens.
DÉFINITION.– Soit deux v.a. X , Y ∈ L2 ( dP ) on appelle covariance de X et Y :
L’expression Cov ( X , Y ) = E X Y − E X E Y .
Quelques remarques ou propriétés faciles à vérifier :
Cov ( X , X ) = V ar X
Cov ( X , Y ) = Cov (Y , X )
est une constante réelle Var ( λ X ) = λ Var X ;

2
– si λ
– si X et Y sont deux v.a. indépendantes, alors Cov ( X , Y ) = 0 mais la
réciproque n’est pas vraie ;
– si X 1 ,..., X n sont des v.a. 2 à 2 indépendantes
Var ( X 1 + ... + X n ) = Var X1 + ... + Var X n
Coefficients de corrélation
(
Les Var X j (toujours positives) et les Cov X j , X K ) (de signe quelconque)
peuvent prendre des valeurs algébriques très élevées. On préfère parfois utiliser les
« coefficients de corrélation » (normalisés) :
Cov ( X j , X K )
ρ ( j, k ) =
Var X j Var X K
dont voici les propriétés :

1) ρ ( j , k ) ∈ [ −1,1]
En effet : supposons (uniquement pour simplifier l’écriture) que X j et X K

soient centrées et considérons le trinôme du 2e degré en λ.
Τ ( λ ) = E ( λ X j − X K ) = λ 2 EX 2j − 2λ E ( X j X K ) + E X K2 ≥ 0
2
Τ ( λ ) ≥ 0 ∀λ ∈ ! si et seulement si le discriminant :
( )
2
∆ = E X jXK − E X 2j E X K2
( )
2
est négatif ou nul, soit Cov X j , X K ≤ Var X j Var X K (c’est-à-dire
ρ ( j , k ) ∈ [ −1,1] ).
Ce qui est aussi l’inégalité de Schwarz.
On peut par ailleurs préciser que ρ ( j , k ) = ±1 si et seulement si ∃ λ 0 ∈ !

tel que X K = λ 0 X j p.s. : en effet en remplaçant X K par λ 0 X j dans la
définition de ρ ( j , k ) , on obtient ρ ( j , k ) = ±1 .
Réciproquement, si ρ ( j , k ) = 1 (par exemple), c’est-à-dire si :

∆ = 0 , ∃ λ 0 ∈ ! tel que X K = λ 0 X j p.s.
Si X j et X k ne sont pas centrés, on remplace dans ce qui précède X j par

X j − Ε X j et X k par X k − E X k
2) Si X j et X k sont indépendantes, E X j X k = E X j E X k donc
( )
Cov X j , X k = 0 et ρ ( j , k ) = 0
Mais la réciprocité est fausse dans le cas général comme le prouve l’exemple
suivant.
Soit Θ une variable aléatoire uniformément répartie sur 0 , 2 [ π [ c’est-à-dire

1
f Θ (θ ) = 1 0 , 2 π [ (θ ) .
2π [
Soit aussi deux v.a. X j = sin Θ et X k = cos Θ .
On vérifie facilement que E X j, E Xk , E X j Xk sont nuls donc
( )
Cov X j , X k et ρ ( j , k ) sont nuls. Cependant X j 2 + X k 2 = 1 et les v.a. X j
et X k sont dépendantes.
Vecteurs aléatoires du second ordre
DÉFINITION.– On dit qu’un vecteur aléatoire X

T
= ( X1 ,..., X n ) est du second
ordre si X j ∈ L
2
( dP ) ∀ j =1 à n .
DÉFINITION.– Etant donné un vecteur aléatoire du second ordre

X = ( X1 ,..., X n ) , on appelle matrice de covariance de ce vecteur, la matrice
T
symétrique :
⎛ Var X1 … Cov ( X 1 , X n ) ⎞
⎜ ⎟
ΓX = ⎜ " " ⎟
⎜ Cov ( X , X ) ( Var X ⎟
⎝ n 1 n ⎠
Si on se reporte à la définition de l’espérance d’une matrice de v.a., on voit que

l’on peut écrire Γ X = E ⎡( X − E X )( X − E X ) ⎤ .
T
⎣ ⎦
On constate aussi que Γ X −ΕX = Γ X .
REMARQUE.– Variables et vecteurs aléatoires complexes du second ordre : on dit

qu’une variable aléatoire complexe X = X 1 + i X 2 est du second ordre si X 1 et
X 2 ∈ L2 ( dP ) .
La covariance de deux variables aléatoires du second ordre et centrées

X = X1 + i X 2 et Y = Y1 + iY2 a pour définition naturelle :
Cov ( X , Y ) = EXY = E ( X 1 + i X 2 )(Y1 − iY2 )

= E ( X 1Y1 + X 2Y2 ) + iE ( X 2Y1 − X 1Y2 )
et la condition de décorrelation est donc :
E ( X 1Y1 + X 2Y2 ) = E ( X 2Y1 − X 1Y2 ) = 0 .
On dit qu’un vecteur aléatoire complexe X

T
(
= X 1 ,..., X j ,... X n ) est du
second ordre si pour tout j ∈ (1,..., n ) X j = X 1 j + iX 2 j est une variable

aléatoire complexe du second ordre.
La matrice de covariance d’un vecteur aléatoire complexe du second ordre et

centré est définie par :
⎛ E X 1 2 … EX 1 X n ⎞
⎜ ⎟
ΓX = ⎜ " " ⎟
⎜⎜ 2⎟⎟
⎝ EX n X 1 ( E X n ⎠
Si l’on ne craint pas les lourdeurs d’écriture, on peut sans difficulté écrire ces
définitions pour des variables et vecteurs aléatoires complexes non centrés.
Revenons aux vecteurs aléatoires réels.
DÉFINITION.– On appelle matrice des moments du second ordre la matrice

symétrique E ⎡⎣ X X ⎤⎦ . Si X est centré Γ X = E ⎡⎣ X X ⎤⎦ .
T T
Transformation affine d’un vecteur du 2e ordre
Notons par M ( p, n ) l’espace des matrices à p lignes et à n colonnes.

PROPOSITION.– Soit X
T
= ( X1 ,..., X n ) un vecteur aléatoire de vecteur espérance
mT = ( m1 ,..., mn ) et de matrice de covariance Γ X .
Soit par ailleurs une matrice A ∈ M ( p, n ) et un vecteur certain
BT = ( b1 ,..., bP ) .
Le vecteur aléatoire Y = AX + B possède Am + B pour vecteur espérance et

ΓY = AΓ X AΤ pour matrice de covariance.
DÉMONSTRATION.–
E [Y ] = E [ AX + B ] = E [ AX ] + B = Am + B.
Et aussi par exemple :
Τ
E ⎡( AX ) ⎤ = E ⎡⎣ X Τ AΤ ⎤⎦ = mΤ AΤ
⎣ ⎦
ΓY = Γ AX +Β = Γ AX = E ⎡⎢ A ( X − m ) ( A ( X − m ) ) ⎤⎥ =
Τ
⎣ ⎦
Τ Τ
E ⎡ A ( X − m )( X − m ) AΤ ⎤ = A E ⎡( X − m )( X − m ) ⎤ AΤ = AΓ X AΤ
⎣ ⎦ ⎣ ⎦
dans la suite, nous aurons aussi besoin du résultat facile suivant.
PROPOSITION.– Soit X
T
= ( X 1 ,..., X n ) un vecteur aléatoire du 2e ordre, de
matrice de covariance Γ Χ .
Alors :
⎛ n ⎞
∀ ΛT = ( λ1 ,..., λn ) ∈ ! n Λ Τ Γ X Λ = var ⎜ ∑ λ j X j ⎟ .
⎜ j =1 ⎟
⎝ ⎠
DÉMONSTRATION.–
(
Λ ΤΓ X Λ = ∑ Cov X j , X K λ j λK = ∑ E
j,K
)
j,K
(( X j − EX j ) ( X K − EX K ) )λ j λK
2 2
⎛ ⎞ ⎛ ⎛ ⎞⎞ ⎛ ⎞
⎜ j (
= E ⎜ ∑ λ j X j − EX j ) ⎟⎟ = E ⎜ ∑ λ j X j − E ⎜⎜ ∑ λ j X j ⎟⎟ ⎟ = Var ⎜⎜ ∑ λ j X j ⎟⎟
⎜ j ⎟
⎝ ⎠ ⎝ ⎝ j ⎠⎠ ⎝ j ⎠
n Τ
CONSÉQUENCE.– ∀Λ ∈ ! on a toujours Λ Γ Χ Λ ≥ 0 .
Rappelons à ce propos ces définitions d’algèbre :

T
– si, Λ Γ X Λ > 0 ∀Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) , on dit que Γ X est
définie positive ;
– si ∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) tel que Λ ΤΓ X Λ = 0 , on dit que Λ X
est semi-définie positive.
REMARQUE.– Dans cet ouvrage la notion de vecteur apparaît dans deux contextes
différents et afin d’éviter certaines confusions, revenons, en insistant, sur quelques
points de vocabulaire.
n
1) On appelle vecteur aléatoire de ! (ou vecteur aléatoire à valeurs dans
⎛ X1 ⎞
⎜ ⎟
! ), tout n-uple de variables aléatoires X = ⎜ " ⎟
n
⎜X ⎟
⎝ n⎠
( ou X = ( X1 ,..., X n ) ou meme
T
ˆ X = ( X 1 ,..., X n ) ) .
X est un vecteur en ce sens que pour chaque ω ∈ Ω , on obtient un n-uple
X (ω ) = ( X 1 (ω ) ,..., X n (ω ) ) qui appartient à l’espace vectoriel ! .

n
n
2) On appelle vecteur aléatoire du second ordre, tout vecteur aléatoire de !
X = ( X 1 ,..., X n ) dont toutes les composantes X j appartiennent à L2 ( dP ) .
Dans ce contexte, les composantes X j elles-mêmes sont des vecteurs

puisqu’elles appartiennent à l’espace vectoriel L ( dP ) .
2
Donc, dans la suite quand on parlera d’indépendance linéaire ou de produit

n
scalaire ou d’orthogonalité, il faudra bien préciser à quel espace vectoriel, ! ou
L ( dP ) , on fait référence.
2
1.5. Indépendance linéaire des vecteurs de L

2
( dP )
DÉFINITION.– On dit que les n vecteurs X 1 ,..., X n de L
2
( dP ) sont linéairement
indépendants si λ1 X 1 + ... + λn X n = 0 p.s. ⇒ λ1 = ... = λn = 0 (où ici, 0 est
le vecteur nul de L
2
( dP ) ).
DÉFINITION.– On dit que les n vecteurs X 1 ,..., X 2 de L
2
( dP ) sont linéairement
dépendants si ∃ λ21 ,..., λn non tous nuls et ∃ un événement A de probabilité
positive tel que λ1 X 1 (ω ) + ... + λn X n (ω ) = 0 ∀ω ∈ A .
En particulier : X 1 ,..., X n seront linéairement dépendants si ∃ λ1 ,..., λn non

tous nuls tel que λ1 X 1 + ... + λn X n = 0 p.s.
Exemples : soient les trois applications mesurables :
X1, X 2 , X 3 : ([0, 2] ,B [0, 2] , dω ) → ( !,B ( ! ) )

définies par :
X 1 (ω ) = ω X 1 (ω ) = e
− (ω −1)
⎫ ⎫
⎪ ⎪⎪
X 2 (ω ) = 2ω ⎬ sur [ 0,1[ et X 2 (ω ) = 2 ⎬ sur [1, 2[
⎪ ⎪
X 3 (ω ) = 3ω ⎭ X 3 (ω ) = −2ω + 5⎪⎭
Figure 1.6. Trois variables aléatoires
Les trois applications sont évidemment mesurables et appartiennent à L ( dω ) ,

2
ce sont 3 vecteurs de L ( dω ) .
2
[ [
Ces 3 vecteurs sont linéairement dépendants car sur A = 0,1 de mesure de
1
probabilité : −5 X 1 ( ω ) + 1 X 2 ( ω ) + 1 X 3 ( ω ) = 0 ∀ω ∈ A .
2
Matrice de covariance et indépendance linéaire
Soit donc Γ X la matrice de covariance de X = ( X 1 ,..., X n ) vecteur du 2e

ordre.
1) Si Γ X est définie positive : X 1 = X 1 − EX 1 ,..., X n = X n − EX n sont

* *
alors des vecteurs linéairement indépendants de L ( dP ) .

2
En effet :
2
⎛ ⎞ ⎛ ⎛ ⎞⎞
Λ Γ X Λ = Var ⎜ ∑ λ j X j ⎟ = E ⎜ ∑ λ j X j − E ⎜ ∑ λ j X j ⎟ ⎟
T
⎜ j ⎟
⎝ j ⎠ ⎝ ⎝ j ⎠⎠
2
⎛ ⎞
= E⎜
⎜ ∑ λ j ( X j − EX j ) ⎟ =0
⎟
⎝ j ⎠
C’est-à-dire :
∑ λ j ( X j − EX j ) = 0 p.s.
j
Ce qui implique, puisque Γ X est définie positive, que λ1 = ( = λn = 0
On peut dire aussi que X 1 ,..., X n engendrent un hyperplan de L ( dP ) de

* * 2
dimension n que l’on peut noter H ( X 1* ,..., X n* ) .
En particulier, si les v.a. X 1 ,..., X n sont décorrelées 2 à 2 (donc a fortiori si

elles sont stochatiquement indépendantes), on a :
ΛT Γ X Λ = ∑ Var X j .λ j2 = 0 ⇒ λ1 = ( = λn = 0
j
donc dans ce cas Γ X est définie positive et X 1 ,..., X n sont encore linéairement
* *
indépendantes.
T
REMARQUE.– Si E X X , la matrice des moments d’ordre 2, est définie positive
alors X 1 ,..., X n sont des vecteurs linéairement indépendants de L ( dP ) .
2
2) Si maintenant Γ X est semi-définie positive :
X 1* = X 1 − EX 1 , . . . , X n* = X n − EX n
sont alors des vecteurs linéairement dépendants de L ( dP ).

2
En effet :
∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 )
⎛ ⎞
( )
tel que : Λ Γ X Λ = Var ⎜
T
∑λ j Xj⎟=0
⎝ j ⎠
C’est-à-dire :
∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) tel que ∑λ ( X

j
j j − EX j ) = 0 p.s.
Figure 1.7. Vecteur X ∗ (ω ) et vecteur X ∗
⎛ X1 ⎞
⎜ ⎟
Exemple : on considère X = X 2 un vecteur aléatoire
3
de ! du 2e ordre,
⎜ ⎟
⎜X ⎟
⎝ 3⎠
⎛ 3⎞ ⎛4 2 0⎞
⎜ ⎟ ⎜
admettant m = −1 pour vecteur espérance et Γ X = 2 1
⎟
0 pour matrice
⎜ ⎟ ⎜ ⎟
⎜ 2⎟ ⎜0 0 3 ⎟⎠
⎝ ⎠ ⎝
de Covariance. On constate que Γ X est semi-définie positive. En prenant par

exemple ΛT = (1 , − 2 , 0 ) on vérifie que (Λ Γ Λ) = 0 .
T
X Donc Var
( X1 − 2 X 2 + 0 X 3 ) = 0 et X 1 − 2 X 2 = 0
* *
p.s.
1.6. Espérance conditionnelle (cas des vecteurs à densité)
Soit X une v.a. réelle et soit Y = (Y1 ,..., Yn ) un vecteur aléatoire réel. On
suppose que : X et Y sont indépendants et que le vecteur
Z = ( X , Y1 ,..., Yn ) admet une densité de probabilité f Z ( x, y1 ,..., yn ) .
Dans ce paragraphe on emploiera selon les cas les notations (Y1 ,..., Yn ) ou
Y , ( y1 ,..., yn ) ou y.
Rappelons pour commencer que fY ( y ) = ∫ ! f Z ( x, y ) dx .
Probabilité conditionnelle
On veut, pour tout B ∈ B ( ! ) et tout ( y1 ,..., yn ) ∈ ! n , définir et calculer la

probabilité pour que X ∈ B sachant que Y1 = y1 ,..., Yn = yn .
On note cette quantité P ( ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) ) ou plus
( )
simplement P X ∈ B y1 ,..., yn . Notons qu’on ne peut pas, comme le cas des
variables discrètes, écrire :
(
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )
(
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) = ) P ( (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )
0
Le quotient ici est indéterminé et égale
0
Pour j = 1 à n , posons I j = ⎡⎣ y j , y j + h ⎡⎣
On écrit :
(
P ( X ∈ B y1 ,..., yn ) = lim P ( X ∈ B ) (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n )
h →0
)
P ( ( X ∈ B ) ∩ (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) )
= lim
h→0 P ( (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) )
∫ B dx ∫ I ×...×I f Z ( x, u1,..., un ) du1...dun

= 1 n
∫ I ×...×I f y ( u1,..., un ) du1...dun

1 n
∫ B f Z ( x, y ) dx = f Z ( x, y ) dx
=
fY ( y ) ∫ B fY ( y )
Il est donc naturel de dire que la densité conditionnelle de la v.a. X sachant

( y1 ,..., yn ) est la fonction :
f Z ( x, y )
x → f ( x y) = si fY ( y ) ≠ 0
fY ( y )
! !
On peut négliger l’ensemble des y pour lesquels fY ( y ) = 0 car il est de

n
mesure (dans ! ) nul.
Posons en effet Α = {( x, y ) fY ( y ) = 0} , on remarque :

P ( ( X , Y ) ∈ Α ) = ∫ f Z ( x, y ) dx dy = ∫ du ∫ f ( x, u ) dx
Α {y f Y ( y )=0} !
=∫ fY ( u ) du = 0 , donc fY ( y ) est non nul presque partout.

{ y fY ( y )=0}
Finalement, on a obtenu une famille (indiciée par les y vérifiant fY ( y ) > 0 )
de densités de probabilités f ( x y ) (∫ !
)
f ( x y ) dx = 1 .
Espérance conditionnelle
Soit toujours le vecteur aléatoire Z = ( X , Y1 ,..., Yn ) de densité f Z ( x, y ) et
f ( x y ) la densité de probabilité de X sachant y1 ,..., yn .
DÉFINITION.– Etant donnée une application mesurable

Ψ : ( !, B ( ! ) ) → ( !, B ( ! ) ) , sous l’hypothèse ∫ ! Ψ ( x ) f ( x y ) dx < ∞
(c’est-à-dire (
Ψ ∈ L1 f ( x y ) dx ) on appelle espérance conditionnelle de
Ψ ( X ) sachant ( y1 ,..., yn ) l’espérance de Ψ ( X ) calculée avec la densité
( ) (
conditionnelle f x y = f x y1 ,..., yn et on écrit : )
E ( Ψ ( X ) y1 ,..., yn ) = ∫ Ψ ( x ) f ( x y ) dx .
!
E ( Ψ ( X ) y1 ,..., yn ) est une valeur certaine, fonction de ( y1 ,..., yn ) , notons la

gˆ ( y1 ,..., yn ) (cette notation prendra son sens dans le chapitre sur l’estimation).
DÉFINITION.– On appelle espérance conditionnelle de Ψ ( X ) par rapport à
Y = (Y1 ,..., Yn ) la v.a. gˆ (Y1 ,..., Yn ) = E ( Ψ ( X ) Y1 ,..., Yn ) (notée aussi

E ( Ψ ( X ) Y ) qui prend la valeur gˆ ( y1 ,..., yn ) = E ( Ψ ( X ) y1 ,..., yn ) quand
(Y1 ,..., Yn ) prend la valeur ( y1,..., yn ).
REMARQUE.– Comme on ne distingue pas deux v.a. égales p.s., on appellera encore
espérance conditionnelle de Ψ ( X ) par rapport à Y1 ,..., Yn toute v.a.
gˆ ′ (Y1 ,..., Yn ) telle que gˆ ′ (Y1 ,..., Yn ) = gˆ (Y1 ,..., Yn ) p.s.
C’est-à-dire gˆ ′ (Y1 ,..., Yn ) = gˆ (Y1 ,..., Yn ) sauf éventuellement sur Α tel que
P ( Α ) = ∫ fY ( y ) dy = 0 .
Α
PROPOSITION.– Si Ψ ( X ) ∈ L ( dP ) (c’est-à-dire ∫ ! Ψ ( x ) f X ( x ) dx < ∞ )

1
alors ĝ (Y ) = E ( Ψ ( X ) Y ) ∈ L ( dP ) (c’est-à-dire ∫ gˆ ( y ) fY ( y ) dy < ∞ .

1
n
!
DÉMONSTRATION.–
∫ ! gˆ ( y ) f ( y ) dy = ∫ ! E ( Ψ ( X ) y ) fY ( y ) dy
n n
= ∫ fY ( y ) dy ∫ Ψ ( X ) f ( x y ) dx
n
! !
Par le théorème de Fubini :
∫ ! Ψ ( x ) fY ( y ) f ( x y ) dx dy = ∫ ! Ψ ( x ) f Z ( x, y ) dx dy
n+1 n+1
= ∫ Ψ ( x ) dx ∫ f Z ( x, y ) dy = ∫ Ψ ( x ) f X ( x ) dx < ∞
n
! ! !
Principales propriétés de l’espérance conditionnelle
Les hypothèses d’intégrabilité étant vérifiées :
1)
(
2) Si X et Y sont indépendants E Ψ ( X ) Y = E Ψ ( X ) ) ( )
( )
3) E Ψ ( X ) X = Ψ ( X )
4) Conditionnements successifs
( )
E E ( Ψ ( X ) Y1 ,..., Yn , Yn +1 ) Y1 ,..., Yn = E ( Ψ ( X ) Y1 ,..., Yn )
5) Linéarité
E ( λ1Ψ1 ( X ) + λ2 Ψ 2 ( X ) Y ) = λ1E ( Ψ1 ( X ) Y ) + λ2 E ( Ψ 2 ( X ) Y )
Les démonstrations en général faciles sont laissées en exercice.
Remarquons en particulier qu’en ce qui concerne la première propriété, il suffit

de réécrire la démonstration de la dernière proposition en y ôtant les valeurs
absolues.
Le chapitre sur l’estimation en moyenne quadratique rendra plus concrète la

notion d’espérance conditionnelle.
Exemple : soit Z = ( X , Y ) un couple aléatoire de densité de probabilité

f Z ( x, y ) = 6 xy ( 2 − x − y )1∆ ( x, y ) où ∆ est le carré [ 0,1] × [ 0,1].
( )
Calculons E X Y . On a successivement :
y ∈ [ 0,1]
1 1
– f ( y) = ∫ 0 f ( x, y ) dx = ∫ 0 6 xy ( 2 − x − y ) dx avec
soit f ( y ) = ( 4 y − 3 y 2 )1[0,1] ( y )
f ( x, y ) 6 x ( 2 − x − y )
– f ( x y) = = 1[0,1] ( x ) avec y ∈ [ 0,1]
f ( y) 4 − 3y
( ) ∫ 0 xf ( x y ) dx ⋅1[0,1] ( y ) = 2 (54−−43yy ) 1[0,1] ( y )

1
– E X y =
Donc :
5 − 4Y
E(X Y) = 1 0,1 (Y ) .
2 ( 4 − 3Y ) [ ]
On a aussi :
( )
E ( X ) = E E ( X Y ) = ∫ E ( X y ) f ( y ) dy
1
0
5 − 4y
( 4 y − 3 y ) dy 7
1
=∫ 2
=
0 2(4 − 3y) 12
1.7. Exercices du chapitre 1
Enoncé 1.1.
Soit X une v.a. de fonction de répartition
⎛0 si x<0
⎜
1
F ( x) = ⎜ si 0≤x≤2
⎜2
⎜1 si x>2
⎝
Calculer les probabilités :
( ) (
P X 2 ≤ X ; P X ≤ 2X 2 ; P X + X 2 ≤ 3) ( 4 )
Enoncé 1.2.
Soit le vecteur aléatoire Z = ( X ,Y ) de densité de probabilité

1
f Z ( x, y ) = K 4
1∆ ( x, y ) où K est une constante réelle et où
yx
⎧ 1⎫
∆ = ⎨( x, y ) ∈ ! 2 x, y > 0 ; y ≤ x ; y > ⎬.
⎩ x⎭
Déterminer la constante K et les densités f X et fY des v.a. X et Y .
Enoncé 1.3.
Soient X et Y deux variables aléatoires indépendantes et de densités

uniformes sur l’intervalle [ 0,1] :
1) Déterminer la densité de probabilité f Z de la v.a. Z = X + Y .

2) Déterminer la densité de probabilité fU de la v.a. U = X Y .
Enoncé 1.4.
Soient X et Y deux v.a. indépendantes et de densités uniformes sur l’intervalle

[ 0,1] . Déterminer la densité de probabilité fU de la v.a. U = X Y .
Solution 1.4.
U prend ses valeurs dans [ 0,1]
Soit FU la fonction de répartition de U :

– si u ≤ 0 FU ( u ) = 0 ; si u ≥ 1 FU ( u ) = 1 ;
– si u ∈ ]0,1[ : FU ( u ) = P (U ≤ u ) = P ( X Y ≤ u ) = P ( ( X , Y ) ∈ Bu )
où Bu = A ∪ B est l’aire hachurée de la figure.
Donc FU ( u ) = ∫B f( X ,Y ) ( x, y ) dx dy = ∫ f X ( x ) fY ( y ) dx dy
u Bu
1 u 1 dx
= ∫ dx dy + ∫ dx ∫ x
dy = u + u ∫ = u (1 − 2n u )
A u 0 u x
⎛ 0 si x ∈ ]-∞,0] ∪ [1, ∞[
Finalement fU ( u ) = FU′ ( u ) = ⎜
⎜ − 2n u
⎝ x ∈ ]0,1[
Enoncé 1.5.
On considère trois v.a. réelles X , Y , Z indépendantes et de même loi N ( 0,1),

1 ⎛ x2 ⎞
c’est-à-dire admettant la même densité ⎜− ⎟.
2π ⎝ 2 ⎠
( )
1
Déterminer la densité de probabilité fU de la v.a.r. U = X 2 + Y 2 + Z 2 2
.
Solution 1.5.
Soit FU la fonction de répartition de U :
⎛ ⎞
( )
1
– si u ≤ 0 FU ( u ) = P ⎜ X 2 + Y 2 + Z 2 2
≤ u⎟ = 0
⎝ ⎠
– si u > 0 FU ( u ) = P ( ( X + Y + Z ) ∈ Su )
Où Su est la sphère de ! 3 centrée en ( 0, 0, 0 ) et de rayon u
= ∫ f( X ,Y , Z ) ( x, y, z ) dx dy dz
Su
⎛ 1
=
1
3 ∫Su exp ⎜⎝ − 2 ( x
2
) ⎞⎠
+ y 2 + z 2 ⎟ dx dy dz
( 2π ) 2
et en utilisant un passage en coordonnées sphériques :
1 eπ π u ⎛ 1 ⎞ 2
∫0 dθ ∫ 0 dϕ ∫ 0 exp ⎜⎝ − 2 r ⎟ r sin ϕ dr
2
=
( 2π )
3
2 ⎠
1 u ⎛ 1 ⎞
= 2π ⋅ 2 ∫ r 2 exp ⎜ − r 2 ⎟ dr
( 2π )
3
2
0
⎝ 2 ⎠
2 ⎛ 1 2⎞
et comme r → r exp ⎜ − r ⎟ est continue :
⎝ 2 ⎠
⎛ 0 si u < 0
fU ( u ) = ⎜⎜ 2 ⎛ 1 ⎞
⎜ FU′ ( u ) = u 2 exp ⎜ − u 2 ⎟ si u ≥ 0
⎝ 2π ⎝ 2 ⎠
Enoncé 1.6.
1 a
1a) Vérifier que ∀a>0 fa ( x ) = est une densité de
π a + x2 2
probabilité (appelée densité de Cauchy).

1b) Vérifier que la fonction caractéristique correspondante est
ϕ X ( u ) = exp ( − a u ) .
1c) Soit une famille de v.a. indépendantes X 1 ,..., X n de densité f a . Trouver
X 1 + ... + X n
la densité de la v.a. Yn = .
n
Que constate-t-on ?
2) Par considération de variables aléatoires de Cauchy, vérifier que l’on peut

avoir l’égalité ϕ X +Y ( u ) = ϕ X ( u ) ϕY ( u ) avec X et Y dépendantes.
Enoncé 1.7.
⎛1 2 3⎞
⎜ ⎟
Montrer que M = 2 1 2 n’est pas une matrice de covariance.
⎜ ⎟
⎜3 2 1⎟
⎝ ⎠
⎛ 1 0, 5 0 ⎞
⎜
Montrer que M = 0, 5 1
⎟
0 est une matrice de covariance.
⎜ ⎟
⎜ 0 ⎟
⎝ 0 1 ⎠
Vérifier sur cet exemple que la propriété « n’être pas corrélé avec » pour une
famille de v.a. n’est pas transitive.
Enoncé 1.8.
Montrer que le vecteur aléatoire X T = ( X1, X 2 , X 3 ) d’espérance
⎛ 10 −1 4 ⎞
ΕX = ( 7, 0,1) et de matrice de covariance Γ X = ⎜ −1 1 −1 ⎟ appartient
T
⎜ ⎟
⎜ 4 −1 2 ⎟
⎝ ⎠
3
presque sûrement (p.s.) à un plan de ! .
Enoncé 1.9.
On considère le vecteur aléatoire U = ( X , Y , Z ) de densité de probabilité

fU ( x, y, z ) = K x y z ( 3 − x − y − z ) 1∆ ( x, y, z ) où ∆ est le cube
[0,1] × [ 0,1] × [ 0,1] .
1) Calculer la constante K .
⎛ ⎡1 1⎤ 1 3⎞
2) Calculer la probabilité conditionnelle P ⎜ X ∈
⎝ ⎢⎣ 4 , 2 ⎥⎦ Y = 2 , Z = 4 ⎟⎠.
3) Déterminer l’espérance conditionnelle Ε X ( 2

Y,Z . )
CHAPITRE 2
Vecteurs gaussiens
2.1. Quelques rappels sur les variables aléatoires gaussiennes
DÉFINITION.– On dit qu’une v.a. réelle est gaussienne, d’espérance m et de

variance σ 2 si sa loi de probabilité PX :
1 ⎛ ( x − m )2 ⎞
– admet la densité f X ( x ) = exp ⎜ − ⎟ si σ 2 ≠ 0
2π σ ⎜ 2σ 2 ⎟
⎝ ⎠
(par un calcul d’intégrale double par exemple, on vérifie que ∫ f X ( x ) dx = 1) ;
!
– est la mesure de Dirac δ m si σ 2 = 0 .
Figure 2.1. Densité gaussienne et mesure de Dirac

Si σ ≠ 0 , on dit que X est gaussienne non dégénérée.

2
Si σ = 0, on dit que X est gaussienne dégénérée ; X est dans ce cas une

2
« v.a. certaine » prenant la valeur m avec la probabilité 1.
2
EX = m, Var X = σ . Ceci se vérifie facilement par utilisation de la fonction de
répartition.
Comme on l’a déjà noté, pour spécifier qu’une v.a. X est gaussienne
d’espérance m et de variance σ 2
, on écrira X ∼ N m, σ ( 2
).
Fonction caractéristique de X ∼ N m, σ ( 2
)
Commençons d’abord par déterminer la fonction caractéristique
de X 0 ∼ N ( 0,1) :
( ) 1 − x2
ϕ X ( u ) = E eiuX = 0
∫! eiux e 2 dx .
2π
0
On voit facilement que l’on peut appliquer le théorème de dérivation sous signe
somme et :
i − x2
ϕ ′X ( u ) = ∫! eiux xe 2 dx .
0
2π
Ensuite par intégration par parties :
i ⎡⎛ iux − x 2 ⎞ +∞ +∞ − x2 ⎤
⎢⎜ −e e 2 ⎟ + ∫ iue e 2 dx ⎥ = − uϕ X 0 ( u ).
iux
=
2π ⎢⎣⎝ ⎠ −∞ −∞
⎥⎦
La résolution de l’équation différentielle ϕ ′X ( u ) = − uϕ X ( u )

0 0
avec la
2
−u
condition ϕ X ( 0 ) = 1 nous conduit à la solution ϕ X ( u ) = e
0 0
2 .
Vecteurs gaussiens 73
2
1 ⎛ x −m ⎞
+∞ iux − 2 ⎜ σ ⎟
Pour X ∼ N m, σ ( 2
) ϕ X (u ) =
1
2π σ
∫ −∞
e e ⎝ ⎠
dx .
x−m
Par le changement de variable y = qui nous ramène au cas précédent, on
σ
1
ium − u 2σ 2
obtient ϕ X (u ) = e 2 .
Si σ2 =0 c’est-à-dire si PX = δ m :
ϕ X (u ) (transformée de Fourier au sens des distributions de δm ) = e

ium
1
ium − u 2σ 2
si bien que dans tous les cas (σ 2
≠ ou = 0 ) ϕ X (u ) = e 2 .
REMARQUE.– Etant donnée la v.a. X ∼ N m, σ ( 2

) , on peut écrire :
⎛ 1 ( x − m ) σ 2 −1 ( x − m ) ⎞
fX (u ) =
1
exp ⎜ −
⎝ 2
( ) ⎟
⎠
(σ )
1 1
( 2π ) 2
2 2
⎛
ϕ X ( u ) = exp ⎜ ium − u σ u ⎟
1 2 ⎞
⎝ 2 ⎠
Ce sont les écritures que l’on retrouvera pour les vecteurs gaussiens.
2.2. Définition et caractérisation des vecteurs gaussiens
DÉFINITION.– On dit qu’un vecteur aléatoire réel X

T
= ( X 1 ,..., X n ) est gaussien
n
si ∀ ( a0 , a1 ,..., an ) ∈ !
n +1
la v.a. a0 + ∑ajX j est gaussienne. (On peut dans
j =1
cette définition supposer a0 = 0 ce que nous ferons en général).

Un vecteur aléatoire X
T
= ( X 1 ,..., X n ) n’est donc pas gaussien si on peut
n
trouver un n -uple ( a1 ,..., an ) ≠ ( 0,..., 0 ) tel que la v.a. ∑ a j X j ne soit pas
j =1
n
gaussienne et il suffit pour cela de trouver un n - uple tel que ∑ a j X j ne soit pas
j =1
une v.a. à densité.
EXEMPLE.– On se donne une v.a. X ∼ N ( 0,1) et une v.a. ε discrète,

indépendante de X et tel que :
1 1
P ( ε = 1) = et P ( ε = −1) = .
2 2
On pose Y = ε X.
En utilisant ce qui précède, on montrera en exercice que, bien que Y soit une
v.a. N ( 0,1) , le vecteur ( X , Y ) n’est pas un vecteur gaussien.
PROPOSITION.– Pour qu’un vecteur aléatoire X

T
= ( X 1 ,..., X n ) d’espérance
mT = ( m1 ,..., mn ) et de matrice de covariance Γ X soit gaussien, il faut et il suffit
que sa fonction caractéristique (f.c) ϕ X soit définie par :
⎛ m ⎞
⎜ j =1
1
ϕ X ( u1 ,..., un ) = exp ⎜ i ∑ u j m j − uT Γ X u ⎟
2 ⎟ ( où u T
)
= ( u1 ,..., un ) .
⎝ ⎠
DÉMONSTRATION.–
⎛ n ⎞ ⎛ n ⎞
ϕ X ( u 1,..., u n ) = E exp ⎜ i ∑ u j X j ⎟ = E exp ⎜ i.1.∑ u j X j ⎟
⎜ ⎟ ⎜ ⎟
⎝ j =1 ⎠ ⎝ j =1 ⎠
n
= fonction caractéristique de la v.a. ∑u j X j en la valeur 1.
j =1
C’est-à-dire : ϕn (1)
∑
j =1
u jX j
⎛ ⎛ n ⎞ 1 ⎛ n ⎞⎞
et ϕ n (1) = exp ⎜⎜ i.1.E ⎜⎜ ∑ u j X j ⎟⎟ − 2
⎜∑
1 Var ⎜ u j X j ⎟⎟
⎟⎟
∑u j X j ⎝ ⎝ j =1 ⎠ 2 ⎝ j =1 ⎠⎠
j =1
n
si et seulement si la v.a. ∑u j X j est gaussienne.
j =1
⎛ n ⎞
Enfin, puisque Var ⎜ ∑
⎜ j =1
u j X j ⎟ = u T Γ X u , on a bien :
⎟
⎝ ⎠
⎛ n
1 ⎞
ϕ X ( u 1,..., u n ) = exp ⎜ i ∑ u j m j − u T Γ X u ⎟.
⎜ 2 ⎟
⎝ j =1 ⎠
NOTATION.– On voit que la fonction caractéristique d’un vecteur gaussien X est

entièrement déterminée quand on connaît son vecteur espérance m et sa matrice de
covariance Γ X . Si X est un tel vecteur, on écrira X ∼ N n ( m, Γ X ).
CAS PARTICULIER.– m = 0 et Γ X = I n (matrice identité), X ∼ N n ( 0, I n ) est ( )

alors appelé vecteur gaussien standard.
2.3. Résultats relatifs à l’indépendance
PROPOSITION.–
1) si le vecteur X
T
= ( X 1 ,..., X n ) est gaussien, toutes ses composantes X j
sont alors des v.a. gaussiennes ;
2) si les composantes X j d’un vecteur aléatoire X sont gaussiennes et

indépendantes, le vecteur X est alors gaussien.
DÉMONSTRATION.–
1) on écrit X j = 0 + ... + 0 + X j + 0... + 0 ;
n n
⎛ 1 2 2⎞
2) ϕ X ( u 1,..., u n ) = ∏ ϕ X ( u j ) ∏ exp ⎜ iu j m j − u jσ j ⎟
=
j =1
j
j =1 ⎝ 2 ⎠
⎛ n
1 ⎞
que l’on peut encore écrire : exp ⎜ i
⎜ ∑ u j m j − 2 u T Γ X u ⎟⎟
⎝ j =1 ⎠
⎛σ 2
1
0 ⎞
⎜
avec Γ X = ⎜ # .
⎜ 0 2
σn ⎠
⎝
ATTENTION.– Comme on le verra ultérieurement : « composantes X j gaussiennes

et indépendantes » n’est pas une condition nécessaire pour que le vecteur aléatoire
( )
X T = X 1 ,..., X j ,..., X n soit gaussien.
PROPOSITION.– Si X
T
( )
= X 1 ,..., X j ,..., X n est un vecteur gaussien de matrice
de covariance Γ X , on a l’équivalence : Γ X diagonale ⇔ les v.a. X j sont
indépendantes.
DÉMONSTRATION.–
⎛ σ 12 0 ⎞
⎜ ⎟ n
ΓX = ⎜ # ⎟ ( j)
⇔ ϕ X ( u 1,..., u n ) = ∏ ϕ X j u
⎜ 0 2 ⎟
σn ⎠
j −1
⎝
Ce qui est une condition nécessaire et suffisante d’indépendance des v.a. X j .
Résumons par un schéma ces deux résultats simples :

(
X T = X 1 ,..., X j ,..., X n ) Les composantes Xj
est un vecteur gaussien sont des v.a. gaussiennes
Si (condition suffisante)
Même si
les Xj sont
ΓX
indépendantes est diagonale
( Xj indépendantes ( X j indépendantes ou
⇔ ΓX est diagonale) X est gaussien)
REMARQUE.– Un vecteur gaussien X

T
( )
= X 1 ,..., X j ,..., X n est évidemment du
2e ordre. En effet chaque composante X j est gaussienne et appartient donc à
⎛ −( x − m ) ⎞
2
⎜ x 1 2σ 2 dx < ∞ ⎟
L2 ( dP )
⎜ ∫!
2
e
2πσ ⎟
⎝ ⎠
On peut généraliser la dernière proposition et remplacer les v.a. gaussiennes par

des vecteurs gaussiens.
Considérons par exemple trois vecteurs aléatoires :
(
X T = X ,..., X
1 n ) ; Y = (Y ,..., Y ) ; Z = ( X ,..., X , Y ,..., Y )
T
1 p
T
1 n 1 p
⎛ ΓX $ Cov( X , Y ) ⎞
⎜ ⎟
et posons Γ Z =
⎜ % $ %
⎟
⎜ Cov(Y , X ) $ Γ ⎟
⎝ Y ⎠
où Cov ( X , Y ) est ici la matrice des coefficients Cov X j , Y& ( )

( )
T
et où Cov ( X , Y ) = Cov ( X , Y ) .
PROPOSITION.– Si Z
T
(
= X 1 ,..., X n , Y1 ,..., Yp ) est un vecteur gaussien de
matrice de covariance Γ Z , on a l’équivalence :
Cov ( X , Y ) = matrice nulle ⇔ X et Y sont 2 vecteurs gaussiens indépendants.
DÉMONSTRATION.–
⎛ ΓX $ ⎞ 0
⎜ ⎟
ΓZ = ⎜ % $ % ⇔
⎟
⎜ 0 $ ΓY ⎟⎠
⎝
⎛ n+ p ⎛ ΓX $ 0 ⎞ ⎞
⎜ 1 T⎜ ⎟ ⎟
ϕ Z ( u 1 ,..., u n, u n +1,..., u n + p ) = exp ⎜ i ∑ u j m j − u ⎜ % $ % ⎟u ⎟
2 ⎜
⎜ j =1
⎝ ⎝ 0 $ ΓY ⎠⎟ ⎠⎟
( )
= ϕ X ( u 1,..., u n ) ϕY u n +1,..., u n + p … Ce qui est une condition nécessaire et
suffisante d’indépendance des vecteurs X et Y.
ATTENTION.– Soit Z
T
( )
= X T , Y T , U T ,... où X , Y ,U ,... sont des v.a. ou des
vecteurs aléatoires.
– Z est un vecteur gaussien est une hypothèse plus forte que
– X gaussien et Y gaussien et U gaussien…
– X gaussien et Y gaussien et U gaussien… et leurs covariances (ou
matrices de covariances) sont nulles ⇒ que Z
T
( )
= X T , Y T , U T ,... est un
vecteur gaussien.
EXEMPLE.– Soient X , Y , Z trois v.a. ∼ N ( 0,1) , cherchons la loi du vecteur
W T = (U ,V ) ou U = X + Y + Z et V = λ X − Y avec λ ∈ ! : à cause de
l’indépendance, le vecteur ( X , Y , Z ) est gaussien et
∀a, b ∈ ! aU + bV = ( a + λ b ) X + ( a − λ b ) Y + aZ est une v.a. gaussienne.
Donc W
T
= (U ,V ) est un vecteur gaussien.
Pour le déterminer entièrement il faut connaître m = EW et ΓW et on aura

W ∼ N 2 ( m, ΓW ) .
Il vient facilement :
EW T = ( EU , EV ) = ( 0, 0 ) et
⎛ Var U Cov (U , V ) ⎞ ⎛ 3 λ −1 ⎞
ΓW = ⎜ ⎟=⎜ ⎟
⎝ Cov (V ,U ) ⎠ ⎝ λ − 1 λ + 1⎠
2
Var V
En effet :
= EU 2 = E ( X + Y + Z ) = EX 2 + EY 2 + EZ 2 = 3
2
Var U
EV 2 = E ( λ X − Y ) = λ 2 EX 2 + EY 2 = λ 2 + 1
2
Var V =
Cov (U ,V ) = E ( X + Y + Z )( λ X − Y ) = λ EX 2 − EY 2 = λ − 1
Cas particulier : λ = 1 ⇔ ΓW diagonale ⇔ U et V sont indépendants.
2.4. Transformation affine d’un vecteur gaussien
On peut généraliser aux vecteurs le résultat suivant sur les v.a. gaussiennes :
Si Y ∼ N m, σ( 2
) alors ∀a, b ∈ ! (
aY + b ∼ N am + b, a 2σ 2 . )
En modifiant un peu l’écriture,
( )
N am + b, a 2σ 2 devenant N ( am + b, a VarY a ), on imagine déjà comment
ce résultat va s’étendre aux vecteurs gaussiens.
PROPOSITION.– Soient un vecteur gaussien Y ∼ N n ( m, ΓY ) , A une matrice

appartenant à M ( p, n ) et un vecteur certain B ∈ ! .
p
Alors AY + B est un vecteur gaussien (

∼ N p Am + B, AΓY AT . )
DÉMONSTRATION.–
⎛ $ ⎞
⎛ a11 % a1n ⎞ ⎛ Y1 ⎞ ⎛ b1 ⎞ ⎜ ⎟
⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ $ ⎟
⎜ $ $ $
⎟⎜ $ ⎟ ⎜ ⎟ ⎜ n ⎟
AY + B = ⎜ a&1 % a&i % a&n ⎟ ⎜ Yi ⎟ + ⎜ b& ⎟ = ⎜ ∑ a&iYi + b& ⎟
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ $ $ ⎟ ⎜ $ ⎟ ⎜ $ ⎟ ⎜ i =1 ⎟
⎜ $ ⎟
⎜ a p1 % a ⎟ ⎜Y ⎟ ⎜ b ⎟ ⎜ ⎟⎟
⎝ pn ⎠ ⎝ n ⎠ ⎝ p ⎠ ⎜
⎝ $ ⎠
– ceci est bien un vecteur gaussien (de dimension p ) car toute combinaison
linéaire de ses composantes est une combinaison affine des v.a. Y1 ,..., Yi ,..., Yn et
par hypothèse Y
T
= (Y1 ,..., Yn ) est un vecteur gaussien ;
– par ailleurs on a vu que si Y est un vecteur de 2e ordre :
E ( AY + B ) = AEY + B = Am + B et Γ AY + B = AΓY AT .
EXEMPLE.– Soient ( n + 1) v.a. indépendantes Y j ∼ N ( µ ,σ )

2
j = 0 à n.
Il vient Y
T
= (Y0 , Y1 ,..., Yn ) ∼ N n +1 ( m, ΓY ) avec mT = ( µ ,..., µ ) et
⎛σ 2 0 ⎞
⎜ ⎟
ΓY = ⎜ # ⎟.
⎜ 0 2 ⎟
σ ⎠
⎝
Soient par ailleurs les nouvelles v.a. X & définies par :
X1 = Y0 + Y1 ,..., X n = Yn −1 + Yn
⎛ X 1 ⎞ ⎛ 110...0 ⎞ ⎛ Y0 ⎞
⎜ ⎟ ⎜ ⎟⎜ ⎟
Le vecteur X
T
= ( X 1 ,..., X n ) est gaussien car
⎜ $ ⎟ = ⎜ 0110..0 ⎟ ⎜ $ ⎟
⎜ X ⎟ ⎜ 0...011 ⎟ ⎜ Y ⎟
⎝ n⎠ ⎝ ⎠⎝ n ⎠
plus précisément, d’après la proposition précédente, X ∼ N Am, AΓ AT .

n Y ( )
REMARQUE.– Si dans cet exemple nous supposons µ =0 et σ = 1 , nous

2
constatons que le vecteur X est gaussien bien que ses composantes X j ne soient
pas indépendantes. En effet, nous avons par exemple :
Cov ( X1 , X 2 ) ≠ 0 car EX 1 X 2 = E (Y0 + Y1 )(Y1 + Y2 ) = EY1 = 1 et

2
EX 1 EX 2 = E (Y0 + Y1 ) E (Y1 + Y2 ) = 0.
2.5. Existence des vecteurs gaussiens
NOTATION.– u = ( u 1,..., u
T
n ) , xT = ( x1 ,..., xn ) et mT = ( m1 ,..., mn ).
On s’intéresse ici à l’existence des vecteurs gaussiens c’est-à-dire à l’existence

n
des lois de probabilités sur ! ayant des transformées de Fourier de la forme :
⎛ 1 T ⎞
exp ⎜ i
⎜ ∑ j j 2
u m − u Γ u ⎟⎟
⎝ j ⎠
PROPOSITION.– Etant donné un vecteur mT = ( m1 ,..., mm ) et une matrice

Γ ∈ M ( n, n ) , symétrique et semi-définie positive, il existe une probabilité PX
n
unique sur ! , de transformée de Fourier :
⎛ n ⎞ ⎛ n 1 T ⎞
∫! n
exp ⎜ i
⎜ ∑ j j⎟ X 1 n
u x ⎟ dP ( x ,..., x ) = exp
⎜ ∑
⎜ i u j m j −
2
u Γu ⎟ .
⎟
⎝ j =1 ⎠ ⎝ j =1 ⎠
En outre :
1) si Γ est inversible, PX admet sur ! n la densité :
⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞ ;
1
f X ( x1 ,..., xn ) = n 1
exp ⎜ −
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠
2) si Γ est non inversible (de rang r < n ) les v.a. X 1 − m1 ,..., X n − mn sont
linéairement dépendantes. On peut encore dire que ω → X (ω ) − m prend
presque sûrement ses valeurs sur un hyperplan ( Π ) de !
n
ou que la probabilité
PX charge un hyperplan ( Π ) et n’est donc pas à densité dans ! n .
DÉMONSTRATION.–
1) Commençons par rappeler un résultat d’algèbre linéaire :
Γ étant symétrique, on peut trouver une base orthonormée de ! n formée de

vecteurs propres de Γ ; appelons (V1 , ..., Vn ) cette base. En notant λ j les valeurs
propres de Γ on a donc ΓV j = λ jV j où les λj sont solutions de l’équation
Det ( Γ − λ I ) = 0 .
Quelques conséquences
⎛λ 1 ⎞0
⎜ ⎟
Posons d’abord Λ = ⎜ # ⎟ et V = (V1 ,..., Vn ) .
⎜ ⎟
⎝ 0 λn ⎠
(où les VJ sont des vecteurs colonnes).
– ΓV j = λ jV j j = 1 à n équivaut à ΓV = V Λ et, la matrice V étant

orthogonale VV ( T
)
= V T V = I , Γ = V ΛV T .
Démontrons que, si en outre Γ est inversible les λj sont ≠ 0 et ≥ 0, donc les

λj sont > 0.
– Les λj sont ≠ 0. En effet, Γ étant inversible,

n
0 ≠ Dét Γ = Dét Λ = ∏ λ j
j =1
Les λj sont ≥ 0 : considérons en effet la forme quadratique u → u

T
Γu
( ≥ 0 puisque Γ semi définie positive).
Dans la base (V1...Vn ) u s’écrit ( u 1,..., u n ) avec u j = < V j , u > et la forme
⎛u1⎞
⎜ ⎟
s’écrit u → ( u 1,..., u n ) Λ $ = ∑ λ j u j ≥ 0 d’où le résultat annoncé.
2
⎜ ⎟
⎜u ⎟ j
⎝ n⎠
Démontrons maintenant la proposition.
2) Plaçons nous d’abord dans le cas général, c’est-à-dire celui dans lequel
Γ est non nécessairement inversible (c’est-à-dire encore que les valeurs propres λ j
sont ≥ 0).
Considérons n v.a. indépendantes Y j ∼ N 0, λ j . ( )

On sait que le vecteur Y
T
= (Y1 ,..., Yn ) est gaussien ainsi que le vecteur
X = VY + m (proposition du paragraphe précédent) ; plus précisément
(
X ∼ N m , Γ = V ΛV T . )
L’existence des vecteurs gaussiens d’espérance et de matrice de covariance
donnée est donc bien prouvée.
Par ailleurs, on a vu que si X est N n ( m, Γ ) , sa fonction caractéristique
⎛ 1 ⎞
(transformée de Fourier de sa loi) est : exp ⎜ i
⎜ ∑ u j m j − 2 uT Γu ⎟⎟.
⎝ j ⎠
On a donc bien :
⎛ 1 T ⎞
∫! n
exp (i∑ u x ) dP
j j X ( x1 ,..., xn ) = exp ⎜⎜ i ∑ u j m j −
2
u Γu ⎟ .
⎟
⎝ j ⎠
Unicité de la loi : elle découle de l’injectivité de la transformation de Fourier.
3) Précisons pour terminer le rôle joué par l’inversibilité de Γ .

a) Si Γ est inversible toutes les valeurs propres λ j ( = VarY j ) sont > 0 et le
vecteur Y
T
= (Y1...Yn ) admet la densité :
n
1 ⎛ y 2j ⎞
fY ( y1 ,..., yn ) = ∏ exp ⎜ − ⎟
2πλ j ⎜ 2λ j ⎟
j =1 ⎝ ⎠
1 ⎛ 1 T −1 ⎞
= 1
exp ⎜ − y Λ y⎟
n ⎛ n ⎞ 2 ⎝ 2 ⎠
( 2π ) 2 ⎜⎜ ∏ λ j ⎟⎟
⎝ j =1 ⎠
En ce qui concerne le vecteur X = VY + m : la transformation affine

y → x = Vy + m est inversible d’inverse y = V −1 ( x − m ) et de Jacobien
Det V = ±1 ( V orthogonal).
n
Par ailleurs ∏ λ j = Det Λ = Det Γ .
j =1
En appliquant le théorème sur la transformée d’un vecteur aléatoire par un

C1 -difféomorphisme, on obtient enfin la densité de probabilité du vecteur X :
f X ( x1 ,..., xn ) = f X ( x ) = fY V −1 ( x − m ) = ( )
↑ ↑ ↑
notation théorème on explicite
⎛ 1
( ) ⎞
1 −1
n 1
exp ⎜ − ( x − m )T V T Λ −1V −1 ( x − m ) ⎟
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠
T
Comme Γ = V ΛV :
⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞⎟ ;
1
f X ( x1 ,..., xn ) = n 1
exp ⎜ −
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠
b) Si Rang Γ = r < n , rangeons les valeurs propres de Γ par ordre

décroissant : λ1 ≥ λ2 ≥ ...λr > 0 et λr +1 = 0,..., λn = 0
Yr +1 = 0 p .s .,..., Yn = 0 p.s. et, presque sûrement, X = VY + m prend ses
valeurs dans (Π ) la sous variété affine de !n image de
ε = { y = ( y1 ,..., yr , 0,..., 0 )} par l’application affine y → Vy + m .
REMARQUE.– Soit un vecteur aléatoire X

T
= ( X 1 ,..., X n ) ∼ N n ( m, Γ X ) et
supposons qu’on ait à calculer une expression de la forme :
EΨ ( X ) = ∫ Ψ ( x ) f X ( x ) dx =
!n
∫ ! Ψ ( x1,..., xn ) f X ( x1,..., xn ) dx1...dxn .

n
Dans le cas général, la densité f X et par suite le calcul proposé, sont rendus
complexes par la dépendance des v.a. X 1 ,..., X n .
Soit λ1 ,..., λn les valeurs propres de Γ X et V la matrice orthogonale qui

diagonalise Γ X .
On a X = VY + m avec Y
T
= (Y1 ,..., Yn ) , les Y j étant indépendantes et
( )
∼ N 0, λ j et le calcul proposé peut s’effectuer sous la forme plus simple :
⎛ n −yj ⎞
2
⎜
E Ψ ( X ) = E Ψ (VY + m ) = ∫ n Ψ (Vy + m ) ⎜ ∏
1 2λ
e j ⎟ dy ...dy .
⎟ 1 n
⎜ j =1 2πλ j
!
⎟
⎝ ⎠
EXEMPLES.–
1) Ecriture d’un cas usuel :

Soit le vecteur gaussien X

T
= ( X1 , X 2 ) ∼ N 2 ( 0, Γ X )
⎛1 ρ⎞
où Γ X = ⎜ ⎟ avec ρ ∈ ]−1,1[ .
⎝ρ 1⎠
Γ X est inversible et :
⎛ 1 ⎞
f X ( x1 , x2 ) =
1
exp ⎜ −
⎝ 2 1− ρ
1
2 (x
2
1 )
− 2 ρ x1 x2 + x22 ⎟ .
2π 1 − ρ 2 ⎠
fx 1
2π 1 − ρ 2
0
x1 x2
Les intersections du graphe de f X avec les places

horizontaux sont les ellipses ε d’équations
x12 − 2 ρ x1 x2 + x22 = C (constantes)
Figure 2.2. Exemple de densité d’un vecteur gaussien
2) On se donne le vecteur gaussien X

T
= ( X 1 , X 2 , X 3 ) avec :
⎛3 0 q⎞
⎜ ⎟
m = (1, 0, −2 ) et Γ = ⎜ 0 1 0 ⎟ .
T
⎜q 0 1⎟
⎝ ⎠
( Cov ( X1, X 2 ) )
2
A cause de l’inégalité de Schwarz ≤ Var X 1 Var X 2 on
doit supposer q ≤ 3.
Nous voulons étudier la densité f X ( x1 , x2 , x3 ) du vecteur X .
Valeurs propres de Γ :
3−λ 0 q
Det ( Γ − λΙ ) = 0 1− λ 0 (
= (1 − λ ) λ − 4λ + 3 − q
2 2
)
q 0 1− λ
D’où les valeurs propres rangées dans l’ordre décroissant :
λ1 = 2 + 1 + q 2 , λ2 = 1 , λ3 = 2 − 1 + q 2
a) si q < 3 alors λ1 > λ2 > λ3 , Γ est inversible et X a une densité de
probabilité dans ! donnée par :
3
⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞⎟ ;
1
f X ( x1 , x2 , x3 ) = 3 1
exp ⎜ −
( 2π ) 2 ( λ1λ2λ3 ) 2 ⎝ 2 ⎠
b) q = 3 alors λ1 = 4 ; λ2 = 1 ; λ3 = 0 et Γ est non inversible de rang 2.
Cherchons la matrice orthogonale V qui diagonalise Γ en écrivant ΓV j = λ j V j
Pour λ1 = 4 ; λ2 = 1 ; λ3 = 0 on obtient respectivement les vecteurs propres :
⎛ 3 ⎞ ⎛− 1 ⎞
⎜ 2⎟ ⎛0⎞ ⎜ 2⎟
V1 = ⎜ 0 ⎟ , V2
⎜ ⎟
= 1 , V3 = ⎜ 0 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜0⎟
⎜⎜ 1 ⎟⎟ ⎝ ⎠ ⎜⎜ 3 ⎟⎟
⎝ 2 ⎠ ⎝ 2⎠
et la matrice orthogonale V = V1 V2 V3 ( ) (VV T

= V TV = Ι . )
Soit les v.a. indépendantes Y1 ∼ N ( 0, 4 ) et Y2 ∼ N ( 0,1) et soit la v.a.

Y3 = 0 p.s., on a :
⎛ 3 0 −1 ⎞ Y
⎛ X1 ⎞ ⎜ 2 2 ⎟⎛ 1 ⎞ ⎛ 1 ⎞
⎜ ⎟
X = X2 = ⎜ 0 1 0 ⎟⎜Y ⎟ + ⎜ 0 ⎟
⎜ ⎟ ⎜ ⎟ ⎜⎜ 2 ⎟⎟ ⎜⎜ ⎟⎟
⎜X ⎟
⎝ 3 ⎠ ⎜⎜ 1 0 3 ⎟⎟ ⎝ 0 ⎠ ⎝ −2 ⎠
⎝ 2 2 ⎠
⎛ X 1∗ ⎞
∗
⎜ ∗⎟
ou, en appelant X = ⎜ X 2 ⎟ le vecteur X après centrage,
⎜⎜ ∗ ⎟⎟
⎝ X3 ⎠
⎛ X 1∗ ⎞ ⎛⎜ 3 2 0 −1 ⎞ Y
2 ⎟⎛ 1 ⎞
∗
X1 =
3 Y
2 1
⎜ ∗⎟
⎜ X 2 ⎟ = ⎜⎜ 0 1 ⎟ ⎜ Y ⎟ soit X ∗ = Y
0
⎜⎜ ∗ ⎟⎟ ⎟ ⎜⎜ 2 ⎟⎟ 2 2
⎝ X 3 ⎠ ⎜⎜⎝ 1 3 ⎟⎟ ⎝ 0 ⎠
∗
0 X 3 = 1 Y1
2 2 ⎠ 2
⎛ X 1∗ ⎞
∗
⎜ ∗ ⎟
On en déduit encore que X = ⎜ X 2 ⎟ .
⎜⎜ ∗ ⎟
⎟
⎝ 3 X1 ⎠
Figure 2.3. Plan ( Π ) chargé par la probabilité P

décrit presque sûrement le plan ( Π ) contenant l’axe

∗
Donc, le vecteur X
'''(
0 x2 et le vecteur U T = ( 3, 0,1) . On dit que la loi PX charge le plan ( Π ).
Probabilité et espérance conditionnelle
Développons un cas simple à titre d’exemple :
Soit le vecteur Gaussien Z

T
= ( X , Y ) ∼ N 2 ( 0, Γ Z ) . En posant
ρ=
( Cov ( X , Y ) )
2
et Var X = σ12 , Var Y = σ 22 la densité Z s’écrit :
VarX VarY
⎛ ⎛ x2 ⎞
1 1 xy y2 ⎞ ⎟
f Z ( x, y ) = exp ⎜ − ⎜ 2 − 2ρ + ⎟ .
2πσ1σ 2 1 − ρ 2 ⎜
⎜ 2 1− ρ 2
⎝ ( ) ⎜
⎝ σ1 σ1σ 2 σ 22 ⎠⎟ ⎟⎟
⎠
Densité conditionnelle de X sachant Y = y ,
f ( x, y ) f Z ( x, y )
f ( x y) = Z =
fY ( y )
∫ ! f Z ( x, y ) dx
⎡ ⎛ x2 ⎤
1 ⎢ 1 xy y 2 ⎞⎥
exp − ⎜ − 2ρ + ⎟
=
2πσ1σ 2 1 − ρ 2
⎢ 2 1− ρ2 ⎜ σ 2
⎢⎣ ⎝ 1 ( )
σ1σ 2 σ 22 ⎟⎠ ⎥
⎥⎦
1 ⎡ 1 y ⎤2
exp ⎢ − 2⎥
2πσ 2 ⎣⎢ 2 σ 2 ⎦⎥
⎡ 2⎤
1 1 ⎛ σ1 ⎞ ⎥
= exp ⎢ − x − ρ y
⎢ 2σ 2 1 − ρ 2 ⎜⎝ ⎟
(
σ1 2π 1 − ρ 2 ⎣⎢ 1 ) σ2 ⎠ ⎥(⎥⎦ )
x étant une variable réelle et y une valeur numérique fixée, on reconnaît une
densité gaussienne. Plus précisément : la loi conditionnelle de X sachant Y = y est
⎛ σ1
N⎜ρ
2
y , σ1 1 − ρ( 2
) ⎞⎟.
⎝ σ2 ⎠
σ1 σ1
On voit en particulier que E ( X y ) = ρ y et que E ( X Y ) = ρ Y.
σ2 σ2
Dans le chapitre sur l’estimation, on verra plus généralement que si
( X , Y1 ,..., Yn ) (
est un vecteur gaussien, E X Y1 ,..., Yn ) s’écrit sous la forme
n
λ0 + ∑ λ jY j .
j =1
Enoncé 2.1.
On considère une cible circulaire D de centre 0 et de rayon R sur laquelle on

tire à l’arc . Le couple Z = ( X , Y ) représente les coordonnés du point d’impact de
la flèche sur le support de la cible ; on suppose que les v. a. X et Y sont
indépendantes et suivant la même loi N 0, 4 R ( 2
).
1) Quelle est la possibilité pour que la flèche atteigne la cible ?
2) Combien de fois faut-il lancer la flèche pour que, avec une possibilité
≥ 0, 9 , la cible soit atteinte au moins une fois (on donne &n 10 ≠ 2, 305 ) ?
3) Supposons que l’on tire 100 fois sur la cible, calculer la probabilité pour que
la cible soit atteinte au moins 20 fois.
Indication : utiliser le théorème central limite.
Solution 2.1.
1) Les v.a. X et Y étant indépendantes, la densité de probabilité de
1 ⎛ x2 + y2 ⎞
Z = ( X , Y ) est f Z ( x, y ) = f X ( x ) fY ( y ) = 2
exp ⎜ − 2 ⎟
8π R ⎝ 8R ⎠
1 ⎛ x2 + y2 ⎞
et P ( Z ∈ D ) = 2 ∫
exp ⎜ − 2 ⎟ dx dy
8π R D ⎝ 8R ⎠
par un passage en coordonnées polaires :
R −e −u
2
⎛ 1 ⎞ 2π 1 1 R2 −1
2 ⎟∫ ∫0 e ∫0
=⎜ d θ 8 R 2 ede = ⋅ 2π ⋅ e 8 R 2 du = 1− e 8
⎝ 8π R ⎠ 0 8π R 2
2
2) A chaque lancé k , on associe une v.a. de Bernouilli U k ∼ b ( p ) définie
⎛ U k = 1 si la flèche atteint la cible (probabilité p )

par ⎜
⎝ U k = 0 si la flèche n'atteint pas la cible (probabilité 1 - p ).
En n lancés, le nombre d’impact est donné par la v.a.
U = U1 + ... + U n ∼ B ( n, p )
P (U ≥ 1) = 1 − P (U = 0 ) = 1 − Cnk p k (1 − p ) ( où k = 0 )
n−k
= 1 − (1 − p )
n
On cherche donc n qui vérifie 1 − (1 − p ) ≥ 0, 9

n
&n10 &n10 &n10 2, 3

⇔ (1 − p ) ≤ 0,1 ⇔ n ≥ −
n
=− =− #
&n (1 − p ) &n (1 − p ) &n e
−1
8
1
8
soit n ≥ 19.
3) En utilisant les notations précédentes, on cherche à calculer P (U ≥ 20 )

avec U = U1 + % + U100 . C’est-à-dire :
⎛ U1 + % + U100 − 100 µ 20 − 100 µ ⎞

P (U1 + % + U100 ≥ 20 ) = P ⎜ ≥ ⎟
⎝ 100σ 100σ ⎠
(( ) )
1
−1 −1 −1 2
avec µ = 1 − e 8
# 0,1175 et σ = 1− e 8
e 8
# 0, 32
⎛ 8, 25 ⎞
soit P ⎜ S ≥ ⎟ = P ( S ≥ 2, 58 ) = 1 − F0 ( 2, 58 )
⎝ 3, 2 ⎠
où S est une v.a. N ( 0,1) et F0 est la fonction de répartition des v.a. N ( 0,1) .
Finalement P (U ≥ 20 ) = 1 − 0, 9951# 0, 005.
Enoncé 2.2.
Soit X 1 ,… , X n n v.a. indépendantes de loi N ( 0,1) et soit
a 1 ,… , a n ; b 1,… , b n 2n constantes réelles.
n n
1) Montrer que les v.a. Y = ∑ a j x j et Z = ∑ b j x j sont indépendantes si
j =1 j =1
n
et seulement si ∑ a jb j = 0 .
j =1
2) En déduire que si X 1 ,..., X n sont n v.a. indépendantes de loi N ( 0,1) , les

n
1
v.a. X =
n
∑Xj et YK = X K − X (où K ∈ {1, 2,..., n} ) sont indépendantes.
j =1
Pour K ≠ & YK et Y& sont-elles des v.a. indépendantes ?
Solution 2.2.
1) U = (Y , Z ) est évidemment un vecteur gaussien.
(∀λ et µ ∈ !, la v.a. λY + µ Z est évidemment une v.a. gaussienne).
Pour que Y et Z soient indépendants il est donc nécessaire et suffisant que :

0 = Cov (Y , Z ) = EYZ = ∑ a j b j EY j Z j = ∑ a j b j
j j
2) Uniquement pour simplifier l’écriture, faisons par exemple K = 1
1 1 ⎛ 1⎞ 1 1
X= X1 + % + X n ; Y1 = ⎜ 1 − ⎟ X 1 − X 2 − % − X n et
n n ⎝ n⎠ n n
n
1⎛ 1⎞ 1
∑ a j b j = n ⎜⎝1 − n ⎟⎠ − ( n − 1) n = 0
j =1
Pour simplifier faisons K = 1 et & = 2
⎛ 1⎞ 1 1
Y1 = ⎜ 1 − ⎟ X1 − X 2 − % − X n ;
⎝ n⎠ n n
1 ⎛ 1⎞ 1
Y2 = − X 1 + ⎜ 1 − ⎟ X 2 − % − X n
n ⎝ n⎠ n
n
⎛ 1⎞1 1
et ∑ a j b j = −2 ⎜⎝1 − n ⎟⎠ n − ( n − 2 ) n < 0
j =1
donc Y1 et Y2 sont dépendantes.
Enoncé 2.3.
On donne une v.a. réelle X ∼ N ( 0,1) et une v.a. discrète ε tel que
1 1
P ( ε = −1) = et P = ( ε = +1) = .
2 2
On suppose X et ε indépendantes. On pose Y = ε X.
1) En utilisant les fonctions de répartition, vérifier que Y ∼ N ( 0,1).
2) Montrer que Cov ( X , Y ) = 0.

3) Le vecteur U = ( X , Y ) est-il gaussien ?
Solution 2.3.
1)
(
FY ( y ) = P (Y ≤ y ) = P ( ε X ≤ y ) = P ( ε X ≤ y ) ∩ ( ( ε = 1) ∪ ( ε = −1) ) )
=P ( ( (ε X ≤ y ) ∩ (ε = 1) ) ∪ ( (ε X ≤ y ) ∩ (ε = −1) ) )
A cause de l’incompatibilité des deux événements liés par la réunion,
= P ( ( ε X ≤ y ) ∩ ( ε = 1) ) + P ( ( ε X ≤ y ) ∩ ( ε = −1) )
= P ( ( X ≤ y ) ∩ ( ε = 1) ) + P ( ( − X ≤ y ) ∩ ( ε = −1) )
A cause de l’indépendance de X et ε,
P ( X ≤ y ) P ( ε = 1) + P ( − X ≤ y ) P ( ε = −1)
1
=
2
( P ( X ≤ y ) + P ( − X ≤ y ))
Enfin, grâce à la parité de la densité de la loi N ( 0,1) ,
= P ( X ≤ y ) = FX ( y ) ;
2) Cov ( X , Y ) = EXY − EXEY = Eε X − *+

, Eε X = *,
Eε EX
2 2
EX = 0;
0 0
3) X + Y = X + ε X = X (1 + ε ) ;
1
( )
Donc P ( X + Y = 0 ) = P X (1 + ε ) = P (1 + ε = 0 ) =
2
.
On déduit que la v.a. λ X + µY (avec λ = µ = 1 ) n’est pas gaussienne, car la

loi n’est pas à densité (elle « charge » la valeur 0).
Donc le vecteur U = ( X , Y ) n’est pas gaussien.
Enoncé 2.4.
Soit une v.a.r. X ∼ N ( 0,1) et soit un réel a > 0 .
⎪⎧ X si X <a
1) Montrer que la v.a.r. Y définie par Y = ⎨ est aussi une
⎪⎩− X si X ≥a
v.a.r. X ∼ N ( 0,1) .
(Indication : montrer l’égalité des fonctions de répartitions FY = FX ).
4 ∞ − x2
2) Vérifier que Cov ( X , Y ) = 1 − ∫a x 2e 2 dx .
2π
Solution 2.4.
1) FY ( y ) = P ( Y ≤ y ) = P ( (Y ≤ y ) ∩ ( X < a) ∪ ( X ≥ a) )
Distributivité et puis incompatibilité % ⇒
( ) (
P (Y ≤ y ) ∩ ( X < a ) + P (Y ≤ y ) ∩ ( X ≥ a ) = )
P ( (Y ≤ y ) ) ((
X < a P ( X < a) + P Y ≤ y X ≥ a P ( X ≥ a) ) )
P ( X ≤ y ) P ( X < a ) + P (( − X ≤ y )) P ( X ≥ a )
*++++++++,
P( X ≤ y )
1 − x2
car e 2 = f X ( x) est paire
2π
( )
= P ( X ≤ y ) P ( X < a ) + P ( X ≥ a ) = P ( X ≤ y ) = FX ( y )
2) EX = EY donc :
a −a ∞
Cov ( X , Y ) = EXY = ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−a −∞ a
∞ −a ∞
=∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−∞ −∞ a
−a ∞
−∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−∞ a
2
Le 1er terme égale EX = VarX = 1 .
La somme des 4 termes suivants, à cause de la parité de la fonction intégrée,

∞
égale −4 ∫a x 2 f X ( x ) dx d’où le résultat.
Enoncé 2.5.
⎛X⎞ ⎛0⎞
Soit Z = ⎜ ⎟ un vecteur gaussien de vecteur espérance m = ⎜ ⎟
⎝Y ⎠ ⎝1 ⎠
⎛ 1 1 ⎞
c’est-à-dire Z ∼ N 2 ( m, Γ Z ) .
2⎟
et de matrice de covariance Γ Z = ⎜
⎜1 ⎟
⎝ 2 1 ⎠
1) Donner la loi de la variable aléatoire X − 2Y .
2) A quelles conditions sur les constantes a et b , la variable aléatoire

aX + bY est-elle indépendante de X − 2Y et de variance 1.
Solutions 2.5.
1) X ∼ N ( 0,1) et Y ∼ N (1,1) ; comme en outre X et Y sont indépendants

X − 2Y est une v.a. gaussienne ; précisément X − 2Y ∼ N ( −2, 5 ) .
⎛ X − 2Y ⎞
2) Comme ⎜ ⎟ est un vecteur gaussien (… écrire la définition)
⎝ aX + bY ⎠
X − 2Y et aX + bY sont indépendants ⇔ Cov ( X − 2Y , aX + bY ) = 0
or Cov ( X − 2Y , aX + bY ) = aVarX − b Cov ( X , Y )
− 2a Cov ( X , Y ) − 2bVarY =
2
a− b−a =0 soit b=0
3
Comme 1 = Var ( a X + b Y ) = Var aX = a Var X

2
: a = ±1 .
Enoncé 2.6.
On considère deux v.a. indépendantes X et Y et l’on suppose que X admet

une densité de probabilité f X ( x ) et que Y ∼ N ( 0,1) .
Déterminer la v.a. (
E e XY X . )
Solution 2.6.
− y2
E e ( XY
x =E) xY
=∫ e
!
xy 1
2π
e 2 dy
−( y − x )
2
1 x2
=
2π
e 2
∫! e 2 dy
−( y − x )
2
1
Comme y → e 2 est une densité de probabilité (v.a. ∼ N ( x,1) ),
2π
( )
X2
XY
on a finalement E e X =e 2.
CHAPITRE 3
Généralités sur les processus à temps discret
3.1. Définition
Un processus à discret est une famille de v.a.
{
XT = X t j t j ∈T ⊂ ! }
où T appelé base de temps est un ensemble dénombrable d’instants. X t est la v.a.
i
de la famille considérée à l’instant t j .
Ordinairement, les t j sont uniformément répartis et distants d’une unité de

∗
temps et dans la suite T sera égal à " ou # ou # et les processus seront encore
notés X T ou, si l’on veut préciser, X " ou X # ou X .
#∗
Pour pouvoir étudier correctement des groupes de v.a. X j de X T et non pas

seulement les v.a. X j individuellement, on a intérêt à considérer ces dernières
comme étant des applications définies sur un même ensemble et ceci nous conduit à
la définition rigoureuse.
DÉFINITION.– On appelle processus stochastique réel à temps discret toute famille

X T d’applications mesurables :
Xj : ω ⎯⎯
→ X j (ω ) avec j ∈T ⊂ "
( Ω ,a ) ( !, B ( ! ) )
On dit aussi que le processus est défini sur l’espace fondamental ( Ω, a ) .
En général un processus X T est associé à un phénomène réel, c’est-à-dire que

les X j représentent des grandeurs (aléatoires) physiques biologiques… Par
exemple l’intensité d’un bruit électromagnétique provenant d’une certaine étoile.
Pour un ω donné, c’est-à-dire après réalisation du phénomène, on a obtenu des

valeurs numériques x j = X j ( ω ).
{ }
DÉFINITION.– xT = x j j ∈ T s’appelle réalisation ou trajectoire du processus
XT .
Figure 3.1. Une trajectoire

Processus à temps discret 101
Lois
Au chapitre 1 nous avons défini les lois PX des vecteurs aléatoires réels
X = ( X 1 ,..., X n ) , lois qui rappelons le, sont des mesures définies sur
T
( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! ) tribu borélienne de ! n .
Les suites finies ( X i ,..., X j ) de v.a. de X T sont des vecteurs aléatoires et

comme dans la suite nous n’aurons à faire intervenir que de telles suites, les
considérations du chapitre I seront suffisantes pour les études que nous envisageons.
T
Mais X T ∈ ! et dans certains problèmes on ne peut éviter la sophistication
supplémentaire suivante :
1) Construction d’une tribu B ! ( ) = ⊗ B ( ! ) sur !T ;

T
j∈T
j
2) Construction de lois sur B ! ( )

T
(Théorème de Kolmogorov).
Stationnarité
DÉFINITION.– On dit qu’un processus X T = X j j ∈ " { } est stationnaire si
∀i, j , p ∈ " les vecteurs aléatoires ( X i ,..., X j ) et ( X i+ p ,..., X j + p ) ont

même loi, c’est-à-dire ∀Bi ,..., B j ∈ B ( ! ) (sur le dessin les Boréliens sont des
intervalles) :
P (( X i+ p ∈ Bi ) ∩ ... ∩ ( X j + p ∈ B j ) = P ) (( X i ∈ Bi ) ∩ ... ∩ ( X j ∈ B j ) )
Stationnarité du second ordre
DÉFINITION.– On dit qu’un processus X T est centré si EX j = 0 ∀j ∈ T .
DÉFINITION.– On dit qu’un processus X T est du 2e ordre si :
X j ∈ L2 ( dP ) ∀j ∈ T .
2 1
On rappelle que si X j ∈ L ∀j ∈ T alors X j ∈ L et ∀i, j ∈ T
EX i X j < ∞ .
– La définition suivante a donc un sens.
DÉFINITION.– Etant donné X " un processus réel du 2e ordre, on appelle fonction

de covariance de ce processus, l’application :
(
→ Γ ( i, j ) = Cov X i , X j
Γ : i , j ⎯⎯ )
" x" !
On appelle fonction d’autocorrelation de ce processus, l’application :
→ R ( i, j ) = E X i X j
R : i, j ⎯⎯
" x" !
Ces deux applications, coïncident évidemment si X " est centré. On reconnaît
ici des notions introduites dans le cadre de vecteurs aléatoires mais ici les indices
...i,... j ,... représentant des instants, on peut s’attendre à ce qu’en général quand les
écarts i − j croissent, les valeurs Γ ( i, j ) et R ( i, j ) décroissent.
DÉFINITION.– On dit que le processus X " est stationnaire du 2e ordre si :

– il est du 2e ordre ;
– l’application → m ( j ) = EX
j ⎯⎯ est constante ;
" !
– ∀ i, j , p ∈ " Γ ( i + p, j + p ) = Γ ( i , j )
Dans ce cas Γ ( i, j ) s’écrit plutôt C ( j − i ) .

Relation liant les deux types de stationnarités
Un processus stationnaire n’est pas nécessairement du 2e ordre comme on le voit

en considérant par exemple le processus X " dans lequel on choisit pour X j des
v.a. indépendantes de loi de Cauchy :
a
fX j ( x) = 2
et EX j et EX j ne sont pas définies.
(
π a +x 2 2
)
Il ne faut pas confondre un « processus stationnaire et de 2e ordre » (ou de 2e
ordre et stationnaire) avec un « processus stationnaire du 2e ordre ».
Il est clair que si un processus du 2e ordre est stationnaire, il est alors

stationnaire du 2e ordre. En effet :
EX j + p = ∫ xdPX
! j+ p
( x ) = ∫ ! xdPX ( x ) = EX j j
et :
Γ ( i + p, j + p ) = ∫ 2
xy dPX , X j+ p ( x, y ) − EX i + p EX j + p
! i+ p
=∫
!
2
xy dPX , X i j
( x, y ) − EX i EX j = Γ ( i, j )
L’implication inverse « stationnarité du 2e ordre ⇒ stationnarité » est fausse en
général ; elle est cependant vraie dans le cas des processus gaussiens.
Ergodicité
Soit X " un processus stationnaire du 2e ordre.
DÉFINITION.– On dit que l’espérance de X " est ergodique si :
N
1
EX 0 = lim
N ↑∞ 2N + 1
∑ X j (ω ) p.s. (presque sûrement).
j =− N
On dit que la fonction d’autocorrelation de X " est ergodique si :

N
1
∀n ∈ " K ( j, j + n ) = EX j X j +n = lim
N ↑∞ 2N + 1
∑ X j (ω ) X j +n (ω ) p.s.
j =− N
C’est-à-dire que, sauf éventuellement pour ω ∈ A ensemble de probabilité
nulle ou encore à l’exception de trajectoires dont la probabilité d’apparition est
nulle, on a pour une trajectoire quelconque x" .
+N
1
EX 0 = lim
N ↑∞ 2N + 1
∑ xj (ergodicité du 1er ordre)
j =− N
=
+N
1
EX j X j + n = lim
2N + 1
∑ x j x j +n (ergocité du 2e ordre).
N ↑∞ j =− N
Sous réserve que le processus X " soit ergodique, on peut donc remplacer une
moyenne probabiliste par une moyenne sur le temps.
Voici une condition suffisante d’ergodicité du 1er ordre :
PROPOSITION.– Loi forte des grands nombres :
Si les X j ( j ∈ " ) forment une suite de v.a. indépendantes et de même loi .
+N
1
Et si E X 0 < ∞ alors EX 0 = lim
N ↑∞ 2N + 1
∑ X j (ω ) p.s.
j =− N
REMARQUE.– Supposons que les v.a. X j soient des v.a. indépendantes de Cauchy
1 a
de densités de probabilité ( a > 0).
π a + x2 2
En utilisant la technique des fonctions caractéristiques, on peut vérifier que la

+N
1
v.a. YN = ∑
2 N + 1 j =− N
X j a la même loi que X 0 ; donc YN ne peut pas
converger p.s. vers la constante EX 0 … mais E X 0 = +∞ .

EXEMPLE .– On considère le processus X " constitué des v.a.

X j = A cos ( λ j + Θ ) où A est une constante réelle et où Θ est une v.a. de
1
densité de probabilité uniforme fΘ (θ ) = 1 [0,2π [(θ ) . Vérifions que X " est
2π
stationnaire du 2e ordre.
2π A 2π
EX j = ∫ Acos ( λ j + θ ) fΘ (θ ) dθ = ∫ cos ( λ j + θ ) dθ = 0
0
2π 0
2π
Γ ( i , j ) = K ( i , j ) = EX i X j = ∫ A cos ( λ j + θ ) A cos ( λ j+θ ) fΘ (θ ) dθ
0
2 2
A 2π A
∫ cos ( λ i + θ ) cos ( λ j + θ ) dθ = cos ( λ ( j − i ) )
2π 0
2
Et X " est bien stationnaire du 2e ordre.
Toujours sur cet exemple, nous allons voir l’ergodicité de l’espérance.
Ergodicité de l’espérance
+N
1
lim
N 2N + 1
∑ Acos ( λ j + θ ) (avec θ fixé ∈ [ 0, 2π [ )
j =− N
1 N
2A ⎛ N
1⎞
= lim
2N + 1
∑ cosλ j = lim
N 2N + 1
⎜ ∑ cosλ j − ⎟
2
N
j =− N ⎝ j =0 ⎠
2A ⎛ 1⎞ 2 A ⎛ 1- e ( ) 1 ⎞
N iλ N +1
⎜ ∑
iλ j
= lim Ré e − ⎟ = lim ⎜ Ré − ⎟
N 2 N + 1 ⎝ j =0 2 ⎠ N 2N + 1 ⎝ 1 − e iλ 2⎠
Si λ ≠ 2kπ , la parenthèse est bornée et la limite est nulle et égale à EX 0 .

Donc l’espérance est ergodique.
Ergodicité de la fonction d’autocorrelation
+N
1
lim ∑ Acos ( λ j + θ ) Acos ( λ ( j + n ) + θ )
N 2N + 1 j =− N
(avec θ fixé ∈ [ 0, 2π [ )
A2 +N
= lim
N 2N + 1
∑ cosλ j cosλ ( j + n )
j =− N
2 +N
1 A
= lim
N 2 2N + 1
∑ ( cosλ ( 2j+n ) + cosλ n )
j =− N
⎛ 1 A2 ⎛ +N ⎞ ⎞ A2
Ré ⎜ eiλ n ∑ eiλ 2 j ⎟ ⎟ +
= lim ⎜
⎜ 2 2N + 1 ⎟ 2 cosλ n
N
⎝ ⎝ j =− N ⎠⎠
A2
La limite est encore nulle et cosλ n = K ( j , j + n ). Donc la fonction
2
d’autocorrelation est ergodique.
Deux processus importants en traitement de signal
Processus de Markov
DÉFINITION : On dit que X " est un processus de Markov discret si :
– ∀B ∈ B ( ! ) ;
– ∀t1 ,..., t j +1 ∈ " avec t1 < t2 < ... < t j < t j +1 ;
– ∀x1 ,..., x j +1 ∈ ! .
Alors ( ) (
P X t j+1 ∈ B X t j = x j ,..., X t1 = x1 = P X t j+1 ∈ B X t j = x j ) ;
égalité qu’on écrit plus brièvement :
( ) (
P X t j+1 ∈ B x j ,..., x1 = P X t j+1 ∈ B x j ).
On peut dire que si t j représente l’instant présent, pour l’étude de X " vers le
futur (instants > t j ), l’information {( X tj ) (

= x j ,..., X t 1 = x1 )} n’apporte rien de
(
plus que l’information X t = x j .
j
)
Souvent les processus de Markov sont associés à des phénomènes débutant à

l’instant 0 par exemple et l’on se donne alors la loi de probabilité Π 0 de la v.a.
X0 .
Les probabilités conditionnelles (

P X t j+1 ∈ B x j ) portent le nom de
probabilités de transition.
Dans la suite, on suppose t j = j .
DÉFINITION.– On dit que la probabilité de transition est stationnaire si
( ) (
P X j +1 ∈ B x j est indépendante de j = P ( X 1 ∈ B x0 ) . )
Voici un exemple de processus de Markov que l’on rencontre souvent dans la
pratique.
X # est défini par la v.a. X 0 et la relation de récurrence X j +1 = f X j , N j ( )

où les N j sont des v.a. indépendantes et indépendantes de la v.a. X 0 et où f est
2
une application : ! × ! → ! borélienne.
Montrons donc que ∀B ∈ B ( ! ) .
( ) ( )
P X j +1 ∈ B x j , x j −1 ,..., x0 = P X j +1 ∈ B x j
⇔ P ( f ( X , N ) ∈ B x , x ,..., x ) = P ( f ( X , N ) ∈ B x )
j j j j −1 0 j j j
⇔ P ( f ( x , N ) ∈ B x , x ,..., x ) = P ( f ( x , N ) ∈ B x )
j j j j −1 0 j j j
Et cette égalité sera vérifiée si la v.a. N j est indépendante de
( X j −1 = x j −1 ) ∩ ... ∩ ( X 0 = x0 ).
Or la relation de récurrence nous conduit à des expressions de la forme :
X 1 = f ( X 0 , N 0 ) , X 2 = f ( X 1 , N1 ) = f ( f ( X 0 , N 0 ) , N1 )
(
= f 2 ( X 0 , N 0 , N1 ) ,..., X j = f j X 0 , N1 ,..., N j −1 )
Ce qui prouve que : N j étant indépendante de X 0 , N1 ,..., N j −1 est aussi
indépendante de X 0 , X 1 ,..., X j −1 (et même de X j ).
Processus gaussien
DÉFINITION.– On dit qu’un processus X " est gaussien si ∀ S = ( i,..., j ) ∈ " , le
(
vecteur aléatoire X S = X i ,..., X j ) est un vecteur gaussien, ce que l’on note
(
rappelons le : X S ∼ N n mS , Γ X . s
)
On voit en particulier que dès que l’on sait qu’un processus X " est gaussien, sa
loi est entièrement déterminée par sa fonction espérance j → m ( j ) et sa fonction
covariance i, j → Γ ( i, j ) . Un tel processus est noté X " ∼ N ( m ( j ) , Γ ( i , j ) ) .
Un processus gaussien est évidemment du 2e ordre, s’il est en outre stationnaire

du 2e ordre il est alors stationnaire et il suffit pour s’en rendre compte d’écrire la
probabilité :
⎛ 1
( x − mS )T Γ −S1 ( x − mS ) ⎞⎟
1
fX ( x ,..., x ) =
i j exp ⎜ −
j −i +1 1
⎝ 2 ⎠
( Det Γ )
S
( 2π ) 2 XS
2
d’un vecteur quelconque X S extrait du processus.
Espace linéaire associé à un processus
X
Soit X " un processus stationnaire du 2e ordre. On note H la famille des
combinaisons linéaires finies de v.a. de X " .
⎧⎪ ⎫⎪
C’est-à-dire : H X
= ⎨ ∑ λ j X j S fini ⊂ " ⎬
⎩⎪ j∈S ⎭⎪
X
DÉFINITION.– On appelle espace linéaire associé au processus X " la famille H
2 X
augmentée des limites dans L des éléments de H . L’espace linéaire est noté par
X
H .
REMARQUES.–
1) H
X
⊂H X
⊂ L2 ( dP ) et H X
est un sous espace vectoriel fermé de
L2 ( dP ).
2) Supposons que X " soit un processus gaussien stationnaire. Toutes les

2
combinaisons linaires de v.a. X j de X " sont gaussiennes et les limites dans L
sont également gaussiennes. En effet, on vérifie facilement que si la suite de v.a.
X n ∼ N mn , σ n2 ( ) converge dans L
2
vers une v.a. X d’espérance m et de
variance σ 2 , mn et σ m2 convergent alors respectivement vers m et σ et

X ∼ N m, σ ( 2
).
Opération retard
X
Le processus X " étant donné, on considère sur H l’opérateur
( )
T n n ∈ #∗ défini par :
T n : ∑ λ j X j → ∑ λ j X ( j −n ) ( S fini ⊂ " ).
j∈S j∈S
X X
H H
n
DÉFINITION.– T s’appelle opération retard d’ordre n .
Propriétés de l’opérateur retard :

n X X
– T est linéaire de H dans H
∗
– ∀ n et m ∈ # T n % T m = T n+m
n 2
– T conserve le produit scalaire de L , c’est-à-dire ∀ I et J finis ⊂ "
⎛ ⎞ ⎛ ⎞
< T n ⎜ ∑ λi X i ⎟ , T n ⎜ ∑ µ j X j ⎟ > = < ∑ λi X i , ∑ µ j X j > .
⎝ i∈I ⎠ ⎝ j∈J ⎠ i∈I j∈J
n X
EXTENSION.– T se prolonge à tout H de la façon suivante :
X X
Soit Z ∈ H et soit Z p ∈ H une suite de v.a. qui converge vers Z dans
L2 ; Z P est en particulier une suite de Cauchy de H X

et par l’isométrie T n,
Tn Zp ( ) est aussi une suite de Cauchy de H X
qui, puisque H X
est complet,
converge dans H X
. Il est facile de vérifier que lim T
P
n
( Z p ) est indépendante de
la suite particulière Z p qui converge vers Z.
X X
En conséquence : ∀Z ∈ H et la suite Z p ∈ H qui converge vers Z . Il est
naturel de poser T n
( Z ) = lim
P
T n
( Z p ).
3.2. Processus stationnaires du deuxième ordre et mesure spectrale
Dans ce paragraphe, il sera intéressant de constater l’influence sur la densité

spectrale de l’espacement temporel entre les v.a. Pour cette raison nous
considérerons momentanément un processus stationnaire du 2e ordre
{ }
X "θ = X jθ j ∈ " où θ est une constante et où jθ a la dimension d’une
durée.
3.2.1. Densité spectrale
DÉFINITION.– On dit que le processus X "θ possède une densité spectrale si sa

covariance C ( nθ ) = C ( ( j − i ) θ ) = EX iθ X jθ − EX iθ EX jθ peut s’écrire sous la
1
forme : C ( nθ ) = ∫ − 122θθ exp ( 2iπ ( inθ ) u ) S XX ( u ) du
et S XX ( u ) est alors appelée densité spectrale du processus X "θ .
PROPOSITION.–
+∞
Sous l’hypothèse ∑ C ( nθ ) < ∞ :
n =−∞
1) Le processus X "θ admet une densité spectrale S XX ;
1
2) S XX est continue, périodique de période , réelle et paire.
θ
Figure 3.2. Fonction covariance et densité spectrale d’u processus

ATTENTION.– La fonction covariance C n’est pas définie (et en particulier ne vaut

pas zéro) en dehors des valeurs nθ .
DÉMONSTRATION.– Compte tenu des hypothèses, la série :
+∞
∑ C ( pθ ) exp ( −2iπ ( pθ ) u )
p =−∞
1
converge uniformément sur ! et définit une fonction S ( u ) continue et
θ
-périodique. En outre :
1 +∞
∫ −1
2θ
∑ ( pθ ) exp ( −2iπ ( pθ ) u ) exp ( 2iπ ( nθ ) u ) du
2θ p =−∞
C
1
=∫ 2θ
S ( u ) exp ( 2iπ ( nθ ) u ) du
−1
2θ
La convergence uniforme et l’orthogonalité dans L − 1

2
( 2θ
,1
2θ ) des
exponentielles complexes permettant de conclure que :
1
C ( nθ ) = ∫ 2θ
exp ( 2iπ ( nθ ) u ) S ( u ) du et que S XX ( u ) = S ( u )
−1
2θ
Pour terminer, C ( nθ ) est une fonction de covariance donc :
C ( − nθ ) = C ( nθ )
+∞
et on en déduit que S XX ( u ) = ∑ C ( pθ ) exp ( −2iπ ( pθ ) u ) est réelle et paire
p =−∞
∞
(on a aussi S XX ( u ) = C ( 0 ) + 2 ∑ C ( pθ ) cos2π ( pθ ) u ).
p =1
EXEMPLE.– La covariance C ( nθ ) = σ e (λ > 0)

2 − λ nθ
d’un processus X "θ vérifie
bien la condition de la proposition et X "θ admet la densité spectrale.
+∞
− λ nθ − 2iπ ( nθ )u
S XX ( u ) = σ 2 ∑e
n =−∞
⎛ ∞ ∞ ⎞
− λ nθ − 2iπ ( nθ )u − λ nθ + 2iπ ( nθ )u
= σ 2 ⎜⎜ ∑ e + ∑e − 1⎟⎟
⎝ n =0 n =0 ⎠
⎛ 1 1 ⎞
=σ 2 ⎜ − λθ − 2iπθ u
+ − λθ + 2iπθ u
− 1⎟
⎝ 1− e 1− e ⎠
1 − e−2λθ
=σ 2
1 + e−2λθ − 2e−λθ cos2πθ u
Bruit blanc
DÉFINITION.– On dit qu’un processus stationnaire du 2e ordre, centré X "θ est un

bruit blanc si sa fonction de covariance C ( nθ ) = C ( ( j − i ) θ ) = EX iθ X jθ vérifie
⎛ C ( 0 ) = EX 2jθ = σ 2 ∀j ∈ "
⎜
⎝ C ( nθ ) = 0 si n ≠ 0
La fonction C vérifie bien la condition de la proposition précédente et

+∞
S XX ( u ) = ∑ C ( nθ ) exp ( −2iπ ( nθ ) u ) = C ( 0 ) = σ 2
n =−∞
Figure 3.3. Fonction covariance et densité spectrale d’un bruit blanc

On rencontre souvent les « bruits blancs gaussiens » : ce sont des processus

gaussiens qui sont aussi des bruits blancs ; les familles de v.a. extraites de tels
processus sont indépendantes et ∼ N 0, σ ( 2
).
On a plus généralement le résultat suivant et dont nous admettons la
démonstration.
Théorème d’Herglotz
Pour qu’une application nθ → C ( nθ ) soit la fonction de covariance d’un

processus stationnaire du 2e ordre, il faut et il suffit qu’existe une mesure positive
⎛⎡ 1 1 ⎤⎞
µX sur B ⎜ ⎢- , ⎥ ⎟ appelée mesure spectrale tel que :
⎝ ⎣ 2θ 2θ ⎦ ⎠
1
C ( nθ ) = ∫ 2θ
exp ( 2iπ ( nθ ) u ) d µ X ( u ) .
−1
2θ
∞
Dans cet énoncé on ne suppose plus que ∑ C ( nθ ) < ∞ .
n =−∞
+∞
Si ∑ C ( nθ ) < ∞ , on retrouve l’énoncé du début avec :
n =−∞
d µ X ( u ) = S XX ( u ) du (énoncé que l’on peut compléter en disant que la densité

spectrale S XX ( u ) est positive).
3.3. Représentation spectrale d’un processus stationnaire du 2e ordre
Dans ce paragraphe nous expliquons la démarche permettant d’aboutir à la

représentation spectrale d’un processus. Afin de ne pas obscurcir cette démarche, les
démonstrations des résultats, assez longues sans être difficiles, ne seront pas
données.
3.3.1. Problème
L’objet de représentation spectrale est :

1) d’étudier les intégrales (dites de Wiener) du type ∫S ϕ ( u ) dZu obtenues
comme limites, en un sens à préciser, des expressions de la forme :
∑ ϕ ( u j ) ( Zu j
− Zu j−1 )
j
où S est un intervalle borné de ! , ϕ est une application à valeurs complexes (et

d’autres conditions), Z S = Z u u ∈ S{ } est un processus du 2e ordre à
accroissements orthogonaux (en abrégé p.a.o.) dont la définition précise sera donnée
dans la suite ;
2) (la construction de l’intégrale de Wiener étant faite) de montrer que
réciproquement, si on se donne un processus stationnaire du 2e ordre X "θ , on peut
{
trouver un p.a.o. Z S = ZU u ∈ S = ⎡ − 1
⎣ 2θ
,1 ⎤
2θ ⎦} tel que ∀j ∈ " X jθ
X jθ = ∫ e ( ) dZu .
2iπ jθ u
puisse s’écrire comme une intégrale de Wierner
S
2iπ ( jθ )u
REMARQUE.– ∫ S ϕ ( u ) dZu et ∫S e dZu ne seront pas des intégrales de
Stieljes ordinaires (et c’est ce qui motive une étude particulière).
En effet :
⎛ ⎞
⎜ ⎟
⎜ σ = {,.., u j −1 , u j , u J +1} subdivision de S ⎟
⎜ ⎟
posons ⎜ σ = sup u j − u j −1 module de la subdivision σ ⎟
⎜ j
⎟
⎜I =
⎜ σ u∑ (
ϕ ( u j ) Zu j − Zu j−1 ) ⎟
⎟
⎝ j ∈σ ⎠
∀σ , l’expression Iσ est bien définie, c’est une v.a. du 2e ordre à valeurs

complexes. Pourtant, le processus Z S n’étant a priori pas à variation bornée, la
limite ordinaire lim Iσ , c’est-à-dire la limite, à trajectoire donnée u → Z u (ω ) ,

σ →0
n’existe pas et ∫ S ϕ ( u ) dZu ne peut donc être une intégrale de Stieljes ordinaire.
Précisément la v.a. ∫ S ϕ ( u ) dZu sera par définition la limite dans L2 , si cette

limite existe de la famille Iσ quand σ → 0 , c’est-à-dire :
2
lim E Iσ − ∫S ϕ ( u ) dZ u = 0 .
σ →0
∫ S ϕ ( u ) dZu = σlim→0 L _ ( Iσ ) .
2
Ce qu’on écrit encore parfois :
3.3.2. Résultats
3.3.2.1. Processus à accroissements orthogonaux et mesure associée

S désigne ici un intervalle borné de ! .
DÉFINITION.– On appelle processus aléatoire à paramètre continu de base S , toute

famille de v.a. Z u , le paramètre u décrivant S .
{
Ce processus sera noté Z S = Z u u ∈ S . }
Par ailleurs, on dira qu’un tel processus est :
– centré si EZ u = 0 ∀u ∈ S ;
2
– du 2e ordre si EZ u < ∞ (c’est-à-dire Z u ∈ L
2
( dP ) ) ∆u ∈ S ;
– continue dans L : si E ( Z u + ∆u − Z u ) → 0
2 2
quand ∆u → 0 ∀u et u + ∆u ∈ S (on parle aussi de continuité à droite ou à gauche

2
dans L ).
Dans la suite Z S sera centré du 2e ordre et continu dans L2 .

DÉFINITION.– On dit que le processus Z S est à accroissements orthogonaux ( Z S

est un p.a.o.) si ∀u1 , u2 , u3 , u4 ∈ S avec u1 < u2 ≤ u3 < u4
< Z u4 − Zu3 , Z u2 − Zu1 > L2 ( dP ) = E Zu4 − Z u3 ( ) ( Zu 2

)
− Zu1 = 0
On dit que Z S est un processus à accroissements orthogonaux et stationnaires

( Z S est un p.a.o.s.) si Z S est un p.a.o. et si en outre ∀u1 , u2 , u3 , u4 avec
( ) ( )
2 2
u4 − u3 = u2 − u1 ; on a E Zu4 − Z u3 = E Zu2 − Z u1 .
2
PROPOSITION.– A tout p.a.o. Z S continu à droite dans L , on peut associer :
– une fonction F non décroissante sur S tel que :
F ( u ′ ) − F ( u ) = E ( Z u′ − Zu ) si u < u ′ ;
2
– une mesure µ sur B ( S ) qui est telle que ∀ u , u ′ ∈ S avec u < u ′ alors
( ) ( ).
µ ( ]u, u′]) = F u′+ − F u −
3.3.2.2. Intégrale stochastique de Wiener

Soit toujours Z S un p.a.o. continu à droite et µ la mesure associée.
PROPOSITION.– Soit ϕ ∈ L ( µ ) à valeurs complexes :

2
⎛ ⎞
1) La
σ →0
lim
⎜ u∑
ϕ ( u j ) Zu − Zu
L2 _ ⎜ ( j j −1
) ⎟⎟ existe. C’est par définition
⎝ ∈σ j ⎠
l’intégrale stochastique de Wiener ∫ ϕ ( u ) dZ u ;
S
2) Soit ϕ et ψ ∈ L
2
( µ ) à valeurs complexes. On a la propriété :
E ∫ ϕ ( u ) dZ ∫ ψ ( u ) dZ
S u S u
= ∫ ϕ ( u )ψ ( u ) d µ ( u ) ,
S
∫ ϕ ( u ) dZ ∫ ϕ (u ) d µ ( u ).
2
en particulier E u =
S S
Idée de la démonstration
Posons ε = espace vectoriel des fonctions en escalier à valeurs complexes.

On commence par prouver la proposition pour les fonctions ϕ ,ψ ,... ∈ ε
(si ϕ ∈ε ϕ ( u ) = ∑ a j 1⎤U ( u ) et :
⎦ j −1 ,U j ⎤
⎦
j
∫ S ϕ ( u ) dZu = ∑j ϕ ( u j ) ( ZU j
− ZU j−1 ). )
On établit ensuite le résultat dans le cas général en utilisant le fait que
ε ( ⊂ L2 ( µ ) ) est dense dans L
2
(µ ) c’est-à-dire que ∀ϕ ∈ L
2
(µ ) on peut
trouver une suite ϕn ∈ ε tel que :
2
ϕ − ϕn L ( µ ) = ∫ ϕ ( u ) − ϕn ( u ) d µ ( u ) → 0
2
2 quand n → ∞
S
3.3.2.3. Représentation spectrale

On se donne X "θ un processus stationnaire du 2e ordre.
D’après le théorème d’Herglotz, on sait que sa fonction de covariance
1
2iπ ( nθ )u
nθ → C ( nθ ) s’écrit C ( nθ ) = ∫ − 1220θ e d µX (u )
où µX est la mesure spectrale sur B ⎡ −1 (⎣ 2θ

,1 ⎤ .
2θ ⎦ )
PROPOSITION.– Si X "θ est un processus stationnaire du 2e ordre, centré, de
fonction de covariance nθ → C ( nθ ) et de mesure spectrale µ X , il existe un p.a.o.
{
unique Z S = Z u u ∈ S = ⎡ −1 , 1 ⎤ tel que :
⎣ 2θ 2θ ⎦ }
2iπ ( jθ )u
∀j ∈ " X jθ = ∫ e dZ u
S
En outre, la mesure associée à Z S est la mesure spectrale µX .
L’écriture des X jθ comme intégrales de Wiener porte le nom de représentation

spectrale du processus.
dZu e (
2iπ ( jθ )u 2iπ ( j + n )θ ) u
REMARQUE.– EX jθ X ( j + n )θ = E e
S S ∫ dZu ∫
et en appliquant la propriété énoncée au 2 de la proposition précédente.
−2iπ ( nθ )u
= ∫ e dZ u = C ( − nθ ) = C ( nθ ) .
S
3.4. Généralités sur le filtrage numérique
Etant donné un processus stationnaire du 2e ordre X " et une suite de nombres
{ }
réels h = h j ∈ ! j ∈ " , on s’intéresse à l’opération qui à X " fait
correspondre un nouveau processus Y" défini par :
+∞ ⎛ +∞ ⎞
∀K ∈ " YK = ∑ j K − j ⎜⎜ ∑ h jT j ⎟⎟ X K
h X =
j =−∞ ⎝ j =−∞ ⎠
2 2
se note aussi h1 où 1 est l’application identique de L dans L ).
0
( h 0T
+∞
Dans la suite on supposera toujours que ∑ h j < ∞ ; cette condition est
j =−∞
1
notée généralement h ∈ & et s’appelle (pour des raisons qui apparaîtront plus tard)
condition de stabilité.
DÉFINITION.– On dit que le processus Y" est le transformé (ou filtré) du processus
+∞
X " par le filtre H (T ) = ∑ h jT j et on écrit Y" = H (T ) X " .
j =−∞
REMARQUE.–
1) Le filtre H (T ) est entièrement déterminé par la suite de pondérateurs
{ }
h = h j ∈ ! j ∈ " et selon les cas, on parlera du filtre H (T ) ou du filtre h
ou encore du filtre (..., h− m ,..., h−1 , h0 ,..., hn ,...).
+∞
2) L’écriture « ∀K ∈ " YK = ∑ hj X K − j » est la définition du produit
j =−∞
de convolution (noté ∗ ) de X " par h et on écrit aussi :

Y" = h ∗ X " ou bien ∀K ∈ " YK = ( h ∗ X " ) K .
X
3) Soit X " un processus stationnaire du 2e ordre et H l’espace linéaire
+∞
associé. Il est clair que les v.a. YK = ∑ hj X K − j ∈H X
et que le processus
j =−∞
Y" est aussi stationnaire du 2e ordre.
Filtre causal
Physiquement, pour K YK ne peut dépendre que des v.a.

donné quelconque,
XK− j antérieures au sens large à YK , c’est-à-dire que j ∈ # . Un filtre
H (T ) qui réalise cette condition est dit causal ou réalisable.
Parmi les filtres causaux, on distingue encore deux grandes classes :
1) Les filtres à réponse impulsionnelle finie (ou RIF) qui sont tels que :
N
∀K ∈ " YK = ∑ h j X K − j
j =0
et dont voici la réalisation schématique suivante.

Figure 3.4. Schéma d’un filtre RIF
2) Les filtres à réponse impulsionnelle infinie (ou R.I.I.) qui sont tels que :
∞
∀K ∈ " YK = ∑ h j X K − j
j =0
REMARQUES.–
1) Précisons bien le rôle joué par l’opérateur T : à un instant quelconque K ,

il remplace X K par X K −1 ; on peut dire aussi que T bloque la v.a. X K −1
pendant une unité de temps et la restitue à l’instant K ;
2) Soit H (T ) un filtre R.I.I. A l’instant K
∞
YK = ∑ h j X K − j = h0 X K + ... + hK X 0 + hK +1 X −1 + ...
j =0
Pour un processus X # , donc commençant à l’instant 0 , on aura :
K
∀K ∈ # YK = ∑ h j X K − j
j =0
Exemple filtrage d’un processus gaussien
Considérons le processus gaussien X " ∼ N ( m ( j ) , Γ ( i , j ) ) et le filtre (RIF)

H (T ) défini par h = ( ...0,..., 0, h 0,..., hN , 0,...) . On vérifie immédiatement que
le processus Y" = H (T ) X " est gaussien. Considérons par exemple le filtrage
spécifié par le schéma suivant :
K
∀K ∈ # YK = ∑ h j X K − j = − X K + 2 X K −1
j =0
Y" est un processus gaussien. Déterminons en les paramètres :

mY ( i ) = EY j = 0
ΓY ( i, j ) = E Yi Y j = E (( − X i )
+ 2 X i −1 ) ( − X j + 2 X j −1 ) =
− j −i − j −i +1
E X i X j − 2 E X i −1 X j − 2 E X i X j −1 + 4 E X i −1 X j −1 = 5e − 2e
Filtre inverse d’un filtre causal
DÉFINITION.– On dit qu’un filtre causal H ( T ) est inversible s’il existe un filtre noté
( H (T ) )−1 et appelé filtre inverse de H ( T ) tel que pour tout processus

stationnaire du 2e ordre X " on ait :
X " = H (T ) ( ( H (T ) ) −1
)
X " = ( H (T ) )
−1
( H (T ) X " ) ( ∗)
Si un tel filtre existe l’égalité Y" = H ( T ) X " est équivalente à l’égalité
X " = ( H ( T ) ) Y" .
−1
Par ailleurs ( H (T ) )−1 est défini par une suite de pondérateurs

h′ = {h′j ∈ ! j ∈ "} et on a le produit de convolution ∀K ∈ " X " = h′ ∗ Y" .
( )
−1
Pour la recherche du filtre inverse H (T ) c’est-à-dire pour la recherche de
la suite de pondérateurs { }
h′ = h′j ∈ ! j ∈ " on écrit que la suite d’égalités ( ∗ )
est équivalent à : ∀K ∈ "
⎛ +∞ ⎞ ⎛ ⎛ +∞ ⎞ ⎞ ⎛ +∞ ⎞ ⎛ ⎛ +∞ ⎞ ⎞
X K = ⎜ ∑ h jT j ⎟ ⎜ ⎜ ∑ h′j T j ⎟ X K ⎟ = ⎜ ∑ h′j T j ⎟ ⎜ ⎜ ∑ h j T j ⎟ X K ⎟
⎜ j =−∞ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟ ⎜ j =−∞ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟
⎝ ⎠⎝⎝ ⎠ ⎠ ⎝ ⎠⎝⎝ ⎠ ⎠
ou encore à :
⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞
⎜⎜ ∑ h jT ⎟⎟ % ⎜⎜ ∑ h′j T ⎟⎟ = ⎜⎜ ∑ h′j T ⎟⎟ % ⎜⎜ ∑ h j T ⎟⎟ = 1
j j j j
⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠
EXEMPLE.– On considère le filtre Causal H (T ) = 1 − hT .
∞
H (T ) admet le filtre inverse ( H (T ) ) = ∑ h j T j .
−1
1) Si h < 1
j =0
On doit pour cela vérifier que étant donné X K v.a. à l’instant K d’un processus
stationnaire du 2e ordre X " , on a :
⎛⎛ ∞ j j ⎞ ⎞
(1 − hT ) ⎜ ⎜ ∑
⎜ ⎜ j =0
h T ⎟ X K ⎟ = X K (égalité dans L2 )
⎟ ⎟
⎝⎝ ⎠ ⎠
⎛ N ⎞
⇔ lim (1 − hT ) ⎜ ∑ h j T j ⎟ X K = X K
N ⎜ j =0 ⎟
⎝ ⎠
( )
⇔ 1 − h N +1 T N +1 X K − X K = h
N +1
X K −( N +1) → 0 quand N ↑ ∞
ce qui est vérifié si h < 1 puisque X K − ( N +1) = E X 02 .
( )
−1
On remarque en outre que H (T ) est Causal.
⎛ 1 −1 ⎞
2) Si h > 1 écrivons (1 − hT ) = −hT % ⎜1 − T ⎟ donc :
⎝ h ⎠
−1
−1 ⎛ 1 ⎞ ⎛ 1 ⎞
(1 − hT ) = ⎜1 − T −1 ⎟ % ⎜ − T −1 ⎟ .
⎝ h ⎠ ⎝ h ⎠
1
Comme les opérateurs commutent et que < 1,
q
T ( )
− j +1
T −1 ∞ 1 − j ∞
%∑ T = −∑
−1
(1 − hT ) =− j +1
h j =0 h j j =0 h
Mais cet inverse n’a pas de réalité physique, il n’est pas Causal (les « opérateurs
− ( j +1)
avance » T ne sont pas Causaux).
3) Si h = 1 (1 − T ) et (1 + T ) ne sont pas inversibles.
Fonction de transfert d’un filtre numérique
DÉFINITION.– On appelle fonction de transfert du filtre numérique

+∞ +∞
H (T ) = ∑ h j T j la fonction H ( z ) = ∑ hj z− j z ∈ '.
j =−∞ j =−∞
On reconnaît la définition donnée en analyse d’une série de Laurent, à la

−1 1
permutation z → z = près. Comme conséquence de cette permutation les
z
fonctions de transfert (sommes des séries) seront écrites pratiquement en utilisant la
variable z . On dit aussi que H ( z ) est la transformée en z de la suite
−1
numérique h = (... h− m ,..., h 0,..., hn ,...).
Précisons le domaine de définition deH ( z ) ; c’est le domaine de convergence

K de la série de Laurent. On sait déjà que K est une couronne de centre 0 et a
donc la forme
K = { z 0 ≤ r < z < R}
Notons par ailleurs par C ( 0, ρ ) tout cercle du plan complexe de centre et de

rayon ρ.
K contient C ( 0,1) car à cause de l’hypothèse de stabilité du filtre à savoir

+∞ +∞
∑ hj < ∞ , ∑ hj z− j converge absolument (et donc converge) en tout
j =−∞ j =−∞
z ∈ C ( 0,1) .
Figure 3.5. Domaine de convergence de la fonction de transfert H ( z)

d’un filtre numérique quelconque
Les singularités σj de H ( z ) vérifient σj ≤r ou σj ≥R et il y aura au
moins une singularité de H ( z ) sur C ( 0, r ) et une autre sur C ( 0, R ) (sinon on

pourrait agrandir K le domaine d’holomorphie de H ( z ) ).
Si maintenant le filtre est Causal :

∞
– s’il est à réponse impulsionnelle infinie (R.I.I.) soit H ( z ) = ∑ hj z− j ,
j =0
{
alors H ( z ) est holomorphe dans K = z 0 ≤ r < z } ( R = +∞ ) ;
N
– s’il est à réponse impulsionnelle finie (R.I.F.) soit H ( z ) = ∑ hj z− j ,
j =0
alors H ( z ) est holomorphe dans K = z 0 < z { } (plan pointé en 0).

On constate notamment que les singularités σj d’une fonction de transfert d’un
filtre causal et stable sont toutes de modules strictement inférieurs à 1.
Figure 3.6. Domaine de convergence du H (z) d’un filtre causal R.I.I.

et domaine de convergence du H (z) d’un filtre causal R.I.F.
+∞
ATTENTION.– étant donnée une série de Laurent ∑ hj z− j (c’est-à-dire étant
j =−∞
donné un filtre numérique h = {... h− m ,..., h 0,..., hn ,...} ) son domaine de

convergence K et donc sa somme H ( z ) sont déterminés de façon unique. C’est-
(
à-dire qu’au filtre est associé le coupe H ( z ) , K . )
Réciproquement, si étant donné H ( z ) , on veut obtenir le filtre h , il faudra
commencer par préciser le domaine dans lequel on veut développer H ( z ) , car
pour différents domaines K , on obtient des développements en séries de Laurent
différents ayant H ( z ) pour somme.
Ceci se résume par la double implication (H ( z), K ) ( h .
Inversion de la transformée en z
( )
Etant donné le couple H ( z ) , K , on veut retrouver le filtre h .
H étant holomorphe dans K on peut appliquer la formule de Laurent :
1 H ( z)
∀j ∈ " h j =
2iπ ∫Γ +
z − j +1
dz
où (argument d’homotopie) Γ est un contour quelconque de K et entourant 0 .

L’intégrale peut être calculée par la méthode des résidus ou bien, puisqu’on a le
choix du contour Γ en choisissant Γ = C ( 0,1) et en paramétrant et en calculant
∫Γ H ( e ) e dθ .
1 iθ ijθ
l’intégrale ∀j ∈ " hj =
2iπ
+
On peut aussi, pour déterminer h j , développer en série de Laurent la fonction

H ( z ) en s’aidant des développements usuels connus.
EXEMPLE RÉCAPITULATIF.– Soit le filtre Causal et stable H (T ) = 1 − hT avec
h < 1 , de fonction de transfert H ( z ) = 1 − h z −1 définie sur ' − {0} . On a vu

qu’il est inversible et que son inverse, également causal et stable, est
∞
R (T ) = ∑ h j T j
j =0
La fonction de transfert du filtre inverse est donc :
∞
R ( z ) = ∑ h j z− j =
1
1 − hz −1
définie sur z { z >h }
j =0
1
(on remarque aussi que R ( z ) = ).
H ( z)
Figure 3.7. Domaine de définition H (z) et domaine de définition R (z)
Possédant R ( z ) =
1
1 − hz −1
sur {z }
z > h , retrouvons (à titre d’exercice) le
développement en série de Laurent de R ( z ) c’est-à-dire les h j coefficients des z

−j
.
j
1 1 z
∫ R ( z )z ∫
j −1
Par les formules de Laurent h j = dz = −dz
2iπ 2iπ
+ +
Γ Γ
z−h
où Γ est un contour appartenant à z { z >h . }

En appliquant le théorème des résidus,
1 ⎛ zj ⎞ zj
si j ≥ 0 h j = 2iπ . ⎜ Résidu de en h ⎟ = lim ( z − h ) = hj
2iπ ⎝ z-h ⎠ z → h z−h
si j < 0 :
1 ⎢⎡⎛ 1
⎞ ⎤ ⎡⎛
1
⎞⎤
h j = 2iπ . ⎜ Résidu de en 0 ⎟ ⎥ + ⎢⎜ Résidu de en h ⎟ ⎥ = 0
2iπ ⎣⎢⎝⎜ z j ( z −h ) ⎟ ⎥ ⎢⎜
⎠ ⎦ )*****
⎣⎝ z j ( z −h ) ⎟⎥
⎠⎦
)***** *+****** , *+****** ,
−1 1
hj hj
X
PROPOSITION.– Soit X " un processus stationnaire du 2e ordre et soit H
l’espace linéaire associé ; on considère toujours le filtre H (T ) de fonction de
+∞ +∞
transfert H ( z) = ∑ h j z − j avec ∑ hj < ∞ .
j =−∞ j =−∞
Alors :
⎛ +∞ ⎞ +∞
1) ∀ K ∈ " ⎜ ∑ q jT j ⎟ X K = ∑ q j X K − j converge dans H X .
⎜ j =−∞ ⎟
⎝ ⎠ j =−∞
+∞
C’est dire que les v.a. YK = ∑ h j X K − j du processus filtré restent dans H X
;
j =−∞
on dit que le filtre est stable.
2) Le processus filtré Y" est stationnaire du 2e ordre.
3) Les densités spectrales de X " et de Y" sont liées par la relation :
SYY ( u ) = H ( −2iπ u ) S XX ( u )
2
DÉMONSTRATION.–
1) On doit montrer que ∀K ∈ " , il existe une v.a. YK ∈H X

⊂ L2 ( dP ) telle
N
que la suite N → ∑ hj X K − j converge pour la norme de H X
et quand N ↑ ∞
−N
X
vers YK . Or H étant un espace de Banach, il suffit de vérifier la convergence
normale, à savoir :
+∞ +∞
( )
1
∑ hj X K − j = ∑ h j E X K2 − j 2
<∞.
j =−∞ J =−∞
+∞
Ce qui est vrai compte tenu de l’hypothèse de stabilité ∑ h j < ∞ et de la
j =−∞
stationnarité de 2e ordre : E X (2K − j ) = σ 2 + m 2
2) Il faut vérifier que E YK est indépendant de K et que Cov ( Yi , Y j ) a la
forme CY ( j − i ) , ce qui est immédiat.
3) CY ( j − i ) = Cov ( Yi , Yj ) = ∑ h& h&′ Cov ( X j − & , X i − &′ )

& , &′
et, en utilisant la définition de S XX ( u )

1
CY ( j − i ) = ∑ h& h&′ ∫ − 12 exp ( 2iπ ( j − & ) − ( i − & ' ) u ) S XX ( u ) du .
& ,& ' 2
Il est facile de vérifier qu’on peut intervertir les symboles ∑ et ∫, de sorte que :
1 ⎛ ⎞
CY ( j − i ) = ∫ 2
exp ( 2iπ ( j − i ) u ) ⎜ ∑ h& h& ' exp 2iπ ( & '− & ) ⎟ S XX ( u ) du
−1
2 ⎝ & ,& ' ⎠
2
1
=∫ 2
exp ( 2iπ ( j − i ) u ) ∑ h& exp ( 2iπ &u ) S XX ( u ) du
−1
2 &
1
=∫ exp ( 2iπ ( j − i ) u ) H ( −2iπ u ) S XX ( u ) du
2 2
−1
2
et en se reportant à la définition de SYY ( u ) , on a bien :
SYY ( u ) = H ( −2iπ u ) S XX ( u ) .
2
3.5. Exemple important : processus autorégressif
∗
DÉFINITION.– On appelle processus autorégressif de degré d ∈ # tout processus
stationnaire du 2e ordre, centré X " qui vérifie : ∀K ∈ ".
d
X K = ∑ h j X K − j + BK où B" est un bruit blanc de puissance EBK2 = σ 2 .
j =1
La famille des processus autorégressifs de degré d est notée AR ( d ) .
Donc ∀ K , X K est obtenu à partir des K valeurs antérieures

X K −d ,..., X K −1 à la v.a. BK près, ce que l’on peut réaliser par le montage
suivant :
Figure 3.8. Filtre autorégressif
L’égalité de la définition s’écrit encore : H ( T ) X " = B" où on a posé

d
H ( T ) = 1 − ∑ h jT j .
j =1
C’est-à-dire qu’on peut obtenir X " par le filtrage de B" par le filtre H (T )
dont le schéma est déjà donné ci-avant à la direction des flèches près.
PROPOSITION.–
1) Tout processus X " ( AR ( d ) ) , généré par le bruit B" et par le filtre

2
σ
H (T ) possède la densité spectrale S XX ( u ) =
H ( exp ( −2iπ u ) )
2
(où le polynôme H ne possède pas de racine de module 1).
2) Réciproquement : tout processus stationnaire du 2e ordre, centré et

possédant une densité spectrale de la forme précédente est auto-régressif de degré
égal au degré de H .
DÉMONSTRATION.–
1) La proposition sur le filtrage et la relation B" = H (T ) X " avec

S B ( u ) = σ 2 conduisent au premier résultat annoncé.
Par ailleurs, supposons que H possède la racine z0 = exp ( −2i π u0 ) de

module 1 et posons z = exp ( −2i π u ) .
Par le développement de Taylor au voisinage de z0 , on aurait :
H ( z ) = H ′ ( z0 )( z − z0 ) + ... ou encore :
H ( exp ( −2i π u ) ) = constante × ( u − u0 ) + ... et l’application :

σ2
u → S XX ( u ) =
H ( exp ( −2i π u ) )
2
ne serait pas intégrable au voisinage de u0 ... comme doit l’être une densité
spectrale.
2) Si le processus X " admet une densité spectrale de la forme

2
σ
S XX ( u ) = , le processus H (T ) X " admet la densité
H ( exp ( −2i π u ) )
2
spectrale constante σ 2 et comme il est centré, c’est un bruit blanc B" .
CAS PARTICULIER.– Processus autorégressif de degré 1 :
X K = h X K −1 + BK
C'est-à-dire (Ε)
(1 − hT ) X K = BK
On remarque pour débuter que :
1) X " est un processus de Markov
∀B ∈ B ( ! ) : P ( X K ∈ B X K −1 = α , X K −2 = β ,...) =
P ( hα1 + BK ∈ B X K −2 = β ,...)
et comme BK est indépendant de X K − 2 , X K −1 ,...
= P ( h α1 + BK ∈ B )
= P ( h X K −1 + BK ∈ B X K −1 = α ) = P ( X K ∈ B X K −1 = α )
2) Si B" est un bruit blanc gaussien, X " est lui-même gaussien.
Expression de X " , solution de ( E ) :
1) On recherche X " processus stationnaire du 2e ordre solution de ( E ) :
– si h = 1, il n’existe pas de processus stationnaire du 2e ordre X " qui

satisfasse à ( E ).
En effet supposons par exemple h = 1 et réitérons n fois la relation de

récurrence, il vient :
X K − X K −n −1 = BK + Bk −1 + ... + BK −n
et E ( X K − X K − n −1 ) = E ( BK + BK −1 + ... + BK − n ) = ( n + 1) σ
2 2 2
Mais si le processus était stationnaire du 2e ordre, on aurait aussi ∀n ∈ " .
E ( X K − X K − n −1 ) = E X K2 + E X K2 − n −1 − 2 E X K X K − n −1 ≤ 4σ 2
2
Et on voit donc que X " ne peut pas être stationnaire du 2e ordre.
Supposons maintenant h ≠ 1, on cherche, si (1 − hT ) est un opérateur

inversible, à obtenir X K = (1 − hT ) BK ;
−1
– si h > 1 . En écrivant (1 − hT ) = − hT % ⎜ 1 −
⎛ 1 −1 ⎞ , comme 1 < 1, on
T ⎟
⎝ h ⎠ h
voit qu’on peut développer ( 1

1 − T −1
h
) (donc aussi (1 − hT )−1 ) en série de
−1
puissance de T (opérateur avance) mais le filtre qu’on obtient étant non causal on
rejette la solution X " obtenue ;
– si h < 1, c’est-à-dire si le zéro du polynôme H ( z ) = 1 − hz −1 a un

module inférieur à 1, on sait que l’opérateur (1 − hT ) est inversible et que
∞
(1 − hT )−1 = ∑ h j T j (filtre causal).
j =0
∞
X K = (1 − hT ) BK = ∑ h j BK − j est donc la solution unique de :
−1
j =0
(1 − hT ) X K = BK
Sous cette forme, la stationnarité du 2e ordre de X " est évidente. En effet les
B j étant centrés et orthogonaux.
∞ 2
σ2
Var X K
j =0
(
= ∑ E h BK − j
j
) =
1 − h2
Par ailleurs pour n ∈ # cov ( X i , X i + n ) =
⎛ ∞ j ∞ ⎞ ∞
2 h
n
E X i X i+n = E ⎜ ∑ h Bi − j ∑ h Bi + n −& ⎟ = σ ∑ h h = σ
& 2 j j +n
⎜ j =0 ⎟ 1− h
⎝ & =0 ⎠ j =0
n
h
Finalement ∀n ∈ " C ( n ) = Cov ( X i , X i + n ) = σ
2
1− h
( )
Figure 3.9. Graphe de C n , fonction de covariance
d’un processus AR (1) ( h ∈ ] 0,1 [ )
Densité spectrale S XX ( u ) de X " :

+∞
σ2 +∞
S XX ( u ) = ∑ C ( n ) exp ( −2iπ n u ) =
1− h 2 ∑ hn exp ( −2iπ n u )
n =−∞ n =−∞
σ2 ⎡ 1 1 ⎤
= 2 ⎢
+ − 1⎥
1 − h ⎣1 − h exp ( −2iπ u ) 1 − h exp ( 2iπ u ) ⎦
σ2
=
1 − 2h cos 2 π u + h 2
2) Solution générale de ( E ) :
C’est la somme de la solution trouvée de l’équation avec deuxième membre

∞
X K − h X K −1 = BK soit ∑ h j BK − j .
j =0
Et de la solution générale de l’équation sous deuxième membre

K
X K − hX K −1 = 0 soit Α h où Α est une v.a. quelconque.
∞
La solution générale X K = ∑ h j BK − j + Α h K n’est plus stationnaire du 2e
j =0
ordre, sauf si Α = 0.
Enoncé 3.1.
Etudier la stationnarité du processus gaussien X " ∼ N ( m ( K ) , min ( j , K ) ) où

E ( X K ) = m ( K ) est constante.
Enoncé 3.2.
On considère la suite réelle hn définie par :
1
hn = 2n si n < 0 et hn = si n ≥ 0 .
4n
+∞
1) Déterminer le domaine de convergence de la série de Laurent ∑ hn z n
n =−∞
{
2) Si h = hn n ∈ " } est un filtre numérique, déterminer sa fonction de
transfert H ( z ) en précisant son domaine de définition.
Solution 3.2.
+∞ −1 ∞ n ∞ n∞ n n
⎛z⎞ ⎛ 1 ⎞ ⎛z⎞
1) ∑ hn z n = ∑ ( ) ∑ ⎜⎝ 4 ⎟⎠ ∑ ⎜⎝ 2 z ⎟⎠ ∑ ⎜⎝ 4 ⎟⎠
2 z + = +
n =∞ n =−∞ n =0 n =1 n =0
1
La série converge si z > et si z < 4 donc dans la couronne
2
K= z { 1
2
< z <4 .}
+∞ ∞ n
∞ n
⎛z⎞ ⎛ 1 ⎞
2) H ( z ) = ∑ hn z −n
= ∑⎜ ⎟ + ∑⎜ ⎟
n =−∞ n =1 ⎝ 2 ⎠ n =0 ⎝ 4 z ⎠
La série converge si z > 2 et si z < 1/ 4 donc dans la couronne

{
K′ = z 1 < z < 2 .
4 }
1 1 7z
Dans K ′ : H (z) = −1+ = .
1− z 1 − ( 4z )
−1
( 2 − z )( 4 z − 1)
2
Enoncé 3.3.
16 − 6 z
Développer H ( z ) =
−1
en série (de Laurent) de puissances de z
( 2 − z )( 4 − z )
dans les trois domaines suivants :
1) { z z < 2}
2) { z 2 < z < 4}
3) { z z > 4}
H ( z ) représentant à chaque fois une fonction de transfert, préciser dans les trois
cas si le filtre correspondant est stable et s’il est causal.
Solution 3.3.
2 4 1 1
H (z) = + = +
2−z 4− z 1− z 1− z
2 4
∞ 0
⎛ 1 1 ⎞ n
– si z < 2 H (z) = ∑⎜ + n ⎟
z = ∑ 2n + 4n z − n ( )
n =0 ⎝ 2 4 ⎠
n
n =−∞
∞
⎛ 1 1 ⎞
Le filtre est stable car ∑ ⎜⎝ 2n + 4n ⎟⎠ < ∞ mais non causal puisque la série
n=0
contient des puissances positives de z .
−2 1
– si 2 < z < 4 on écrit H ( z ) = +
(
z 1− 2
z ) 1− z
4
∞ n ∞ n ∞
−2 z 0
=∑ n
+∑ n
= ∑ 4n z − n + ∑ −2n z n .
n =1 z n =0 4 n =−∞ n =1
Le filtre n’est ni stable ni causal.

−2 −4
– si z > 4 on écrit H ( z ) = +
(
z 1− 2
z ) z (1 − 4 z )
∞
( )
= ∑ − 2n + 4n z − n le filtre est instable et causal.
n =1
Enoncé 3.4.
On considère un bruit blanc gaussien B" (rappelons que les BK sont des v.a.
gaussiennes indépendantes ; EBK = 0 et Var BK = 0 ). On se donne par ailleurs
deux réels α et β différents et vérifiant α < 1 et β < 1.
1) Construire un processus stationnaire centré X " tel que :

X K = α X K −1 + BK − β BK −1 K ∈ " , et déterminer sa densité spectracle
S XX ( u ) .
X
2) Notons par H l’espace linéaire engendré par les v.a. X n , n ≤ 0 .
Notons par HB l’espace linéaire engendré par les v.a. Bn , n ≤ 0 .
X
Vérifier que H =H B .
∞
3) On pose YK = ∑ β n X K −n K ∈"
n=0
Exprimer YK en fonction du bruit blanc et en déduire la meilleure approximation

linéaire de YK exprimée à l’aide des X n , n ≤ 0 .
4) Montrer que les v.a. YK sont gaussiennes centrées et calculer leurs

covariances.
Solution 3.4.
1) L’égalité définissant X K permet d’écrire (1 − α T ) X K = (1 − β T ) BK et

l’opérateur (1 − α T ) étant inversible puisque α < 1.
⎛ ∞
⎞
X K = (1 − α T )
−1
(1 − β T ) BK = ⎜ ∑ α nT n ⎟ (1 − β T ) BK
⎝ n =0 ⎠
∞
Donc X K = BK + ∑ α n−1 (α − β ) BK −n et X " est bien stationnaire.
n =1
Par ailleurs, le processus X " est généré à partir de B" par le filtre
−1 1− β z
(1 − α T ) (1 − β T ) de fonction de transfert .
1+α z
2
1 − β e2iπ u
Donc d’après le théorème sur le filtrage : S XX (u ) = 2iπ u
σ 2.
1+ αe
B
2) D’après 1) ∀K X K ∈H donc H
X
⊆ H
B
Réciproquement, en partant de BK = (1 − β T ) (1 − α T ) X K
−1
et par des calculs
analogues aux précédents, on obtient H B ⊆H X
∞
⎛ ∞ ⎞
= ∑ β n X K −n = ⎜ ∑ β nT n ⎟ X K = (1 − β T ) X K
−1
3) YK
n =0 ⎝ n =0 ⎠
Donc YK = (1 − β T ) (1 − α T )−1 (1 − β T ) BK ,
−1
et comme on peut permuter
∞
les opérateurs, YK = (1 − α T )−1 BK = ∑ α n BK − n
n =0
X
Puisque H = H B , la meilleure approximation linéaire de YK est :
⎛ ∞ ⎞ ∞
projH X YK = projH X YK = projH B ⎜ ∑ α n BK − n ⎟ = ∑ α n+ K B− n
⎝ n =0 ⎠ n =0
0
∞ ∞
α K ∑ α n B− n = α k Y0 = α K ∑ β n X − n
n =0 n =0
∞
4) Puisque YK = ∑ α n BK −n, les YK sont des v.a. gaussiennes centrées. Par
n =0
ailleurs :
∞ ∞ ∞
Cov (Y j , YK ) = ∑ ∑ α m+ n E ( BK −n B j −m ) = ∑ α 2m+ K − j EB 2j −m
m =0 n =0 m =0
∞
α K− j
=α
K− j
∑ α 2mσ 2 =
1−α 2
σ2.
m =0
Enoncé 3.5.
∞
Soit X " un processeur vérifiant ∑ bn X K −n = BK ( bn ∈ ! ) où B" est un
n =0
∞
bruit de puissance σ 2 . On pose par ailleurs b ( z ) = ∑ bn z − n .
n =0
1 z K − j −1
1) Montrer que si j < K ∫C b ( z ) dz
EX j BK =
2iπ
+
(intégrale de la variable complexe z où C = { z z = 1} ).
2) Vérifier que si b ( z ) ne possède pas de zéro dans le disque

{z }
z < 1 alors ∀j < K X j ⊥ BK ( EX j BK = 0).
Solution 3.5.
∞
1) EX j BK = ∑ bn EX j X K −n et par définition de la densité spectracle
n =0
S X ( u ) de X " :
EX j X K − n = cov ( X j , X K −n ) = ∫ ( 2iπ ( j − K + n ) u ) S X ( u ) du
1/ 2
exp
−1/ 2
⎛ ∞ n⎞
⎜ ∑ bnT ⎟ X K = BK , X " est obtenu par filtrage de B"
Par ailleurs, puisque
⎝ n =0 ⎠
1
(de densité spectacle σ ), par le filtre de fonction de transfert
2
et par le
b( z)
2
σ
théorème sur le filtrage S X ( u ) =
b ( exp ( −2iπ u ) )
2
∞
1
exp ( 2iπ ( j − K ) u )∑ bn exp ( 2iπ nu )
1/ 2
d’où EX j BK = σ 2 ∫ du
b ( exp ( −2iπ u ) )
−1/ 2 2
n =0
b ( exp ( −2iπ u ) )
exp ( 2iπ ( j − K ) u )
1/ 2
σ2∫ du
b ( exp ( −2iπ u ) )
−1/ 2 2
1/ 2 exp ( 2iπ ( j − K ) u )
=σ2∫ du
−1/ 2 b ( exp ( −2iπ u ) )
En posant z = exp ( −2iπ u ) , dz = −2iπ z du et finalement :
σ2 z K − j −1
EX j BK =
2iπ ∫C +
b( z)
dz
2) Si b z ( ) ne possède pas de zéro dans {z }

z < 1 , la fonction à intégrer
est holomorphe à l’intérieur du disque ouvert D ( 0,1) et par le théorème de Cauchy
EX j BK = 0.
CHAPITRE 4
Estimation
4.1. Position du problème
On considère deux processus à temps discret :
( )
X !∗ = X 1 ,..., X j ,... et Y!∗ = (Y1 ,..., Y j ,...) :
– du 2e ordre ;
– pas nécessairement stationnaires du 2e ordre (ils ne possèdent donc pas
nécessairement une densité spectrale).
X !∗ est appelé processus d’état, c’est le processus (physique par exemple) que
l’on cherche à estimer mais il est inaccessible directement.
Y!∗ est appelé processus d’observation, c’est le processus que l’on observe
( )
(précisément on observe une trajectoire y!∗ = y1 ,..., y j ,... qui nous permettra
(
d’estimer la trajectoire correspondante x!∗ = x1 ,..., x j ,... ). )
Un exemple classique est le suivant :
(
X !∗ = X 1 ,..., X j ,... )
(
Y!∗ = X !∗ + U !∗ = X 1 + U1 ,..., X j + U j ,... , )
où U !∗ est aussi un processus aléatoire.
On dit alors que le processus d’état est perturbé par un bruit parasite
U !∗ (perturbation due à la mesure, à la transmission, etc.).
Dans la suite, les hypothèses et données suivantes seront admises :

– ∀j ∈ !
∗
X j et Y j ∈ L2 ( dP ) ;
∗ ∗
– ∀i, j ∈ ! × ! , on connaît EX j , cov X i , Y j ( ) , cov (Yi , Y j ).
PROBLÈME.– Ayant observé (ou enregistré) une trajectoire y!∗ de Y!∗ jusqu’à
l’instant K − 1 , on veut, à un instant donné p , déterminer la valeur « xˆ p qui
approche au mieux x p (inconnue) ».
Figure 4.1. Trois trajectoires
(
y!∗ = y1 ,..., y j ,... ) (
xˆ!∗ = xˆ1 ,..., xˆ j ,... ) ( )
x!∗ = x1 ,..., x j ,... inconnue.
Si :
– p< − 1 on parle de lissage ;
K
– p = K − 1 on parle de filtrage ;
– p > K − 1 on parle de prédiction.
REMARQUE 1.– Dans le cas de la prédiction, on peut n’avoir à considérer que le

processus Y!∗ car prédire y p pour p > K − 1 est déjà un problème…
Estimation 145
REMARQUE 2.– A propos de l’expression « xˆ p approche au mieux x p ». Nous

verrons que les hypothèses (connaissances des variances et covariances) nous
permettent de déterminer Xˆ p , la v.a. du 2e ordre qui approche au mieux en
moyenne quadratique la v.a. X p , c’est-à-dire la v.a. Xˆ P qui est telle que
( ) = Min2 E ( X p − Z ) , ce qui est un résultat sur les moyennes de

2 2
E X p − Xˆ p
Z ∈L
v.a. et non sur les réalisations.
Cependant, ne serait-ce qu’à cause de l’inégalité de Bienaymé-Tchebychev :
( )
2
E X p − Xˆ p
(
P X p − Xˆ p ≥ C ≤ ) C2
= A.
On voit que l’on obtient un résultat sur les réalisations puisque cette inégalité
signifie exactement que à l’instant p , la valeur inconnue x p appartiendra à
l’intervalle connu ⎤⎦ xˆ p − C , xˆ p + C ⎡⎣ avec une probabilité supérieur à 1 − A .
Ce chapitre est une introduction au filtrage de Kalman pour lequel nous aurons à
considérer la meilleure estimation de la v.a. X K (et aussi éventuellement de la v.a.
YK ) ayant observé Y1 ,..., YK −1 et nous supposerons donc p = K .
RÉSUMONS.– Etant donné le processus d’observation Y!∗ , considéré jusqu’à

l’instant K − 1 , toute estimation Z de X K aura la forme Z = g (Y1 ,..., Yk −1 ) où
g : " K −1 → " est une application borélienne. Le problème que nous nous
poserons dans les paragraphes à venir est le suivant.
Trouver la meilleure estimation en moyenne quadratique Xˆ K K −1 de X K ,
c’est-à-dire trouver la v.a. Xˆ K K −1 qui rend minimum l’application
Z → E( XK − Z )
2
(c’est-à-dire encore trouver la fonction ĝ qui rend
L2 ( dP ) "
( )
2
minimum g → E X K − g (Y1 ,..., YK −1 ) . On a Xˆ K K −1 = gˆ (Y1 ,..., YK −1 ) ).
4.2. Estimation linéaire
L’espace fondamental que l’on définit ci-après a déjà été introduit, mais dans un
contexte différent, au chapitre 3.
DÉFINITION.– On appelle espace linéaire d’observation jusqu’à l’instant K −1 et on

note H KY−1 (ou H (1, Y1 ,..., YK −1 ) ), l’espace vectoriel des combinaisons linéaires
des v.a. 1, Y1 ,..., YK −1 , c’est-à-dire :
⎧ K −1 ⎫
H KY−1 = ⎨λ01 + ∑ λ jY j λ 0 ,..., λK −1 ∈ " ⎬ .
⎩ j =1 ⎭
Puisque les v.a. 1, Y1 ,..., YK −1 ∈ L

2
( dP ) , H KY-1 est un sous espace vectoriel
(fermé, car le nombre de v.a. est fini) de L
2
( dP ) .
On peut aussi dire que H KY-1 est un sous espace de Hilbert de L2 ( dP ) .
Nous nous intéressons ici au problème énoncé au paragraphe précédent mais

avec l’hypothèse simplificatrice : g est linéaire, c’est-à-dire que les estimateurs
envisagés Z de X K sont de la forme :
K −1
Z = g (Y1 ,..., YK −1 ) = λ0 + ∑ λ jY j et appartiennent donc à HKY−1.
j =1
Le problème s’énonce alors : trouver la v.a., notée Xˆ K K −1 , qui rend minimum

l’application :
Z → E( XK − Z )
2
H KY−1 "
(c’est-à-dire trouver les λˆ0 , λˆ1 ,..., λˆK −1 qui rendent minimum :
Estimation 147
2
⎛ ⎛ K −1
⎞⎞
λ0 , λ1 ,..., λK −1 → E ⎜⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟⎟ ).
⎝ ⎝ J =1 ⎠⎠
K −1
On aura Xˆ K K −1 = λˆ0 + ∑ λˆ jY j .
j =0
DÉFINITION.–
2
⎛ ⎛ K −1 ⎞⎞
C ( λ0 , λ1 ,..., λK ) = E ⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟ s’appelle « fonction coût ».
⎜ ⎜ ⎟⎟
⎝ ⎝ j =1 ⎠⎠
La solution est donnée par le résultat suivant, relatif aux espaces de Hilbert.
THÉORÈME.–
K −1
– Il existe Xˆ K K −1 = λˆ0 + ∑ λˆ jY j unique qui rend minimum l’application
j =1
Z → E( XK − Z )
2
;
H KY−1 "
– Xˆ K K −1 est la proposition orthogonale de X K sur H KY−1 (on la note aussi
projH Y X K ). C’est-à-dire X K − Xˆ K K −1 ⊥ H K −1 .
Y
K −1
Figure 4.2. Projection orthogonale du vecteur XK sur H KY-1
Ce théorème étant admis, on achève de résoudre le problème en calculant les

λˆ 0, λˆ 1,..., λˆ K −1 .
PROPOSITION.–
K −1
1) Les coefficients λˆ 0, λˆ 1,..., λˆ K −1 de Xˆ K K −1 = λˆ 0 + ∑ λˆ jY j vérifient :
j =1
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ ⎜ ⎟ K −1
ΓY ⎜ # ⎟ = ⎜ # ⎟ et λ 0 K ∑ j j
ˆ = EX − λˆ EY
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟ j =1
⎝ K −1 ⎠ ⎝ K K −1 ⎠
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟
et si ΓY est inversible ⎜ # ⎟ = ΓY ⎜ # ⎟;
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟
⎝ K −1 ⎠ ⎝ K K −1 ⎠
2) X$ K = X K − Xˆ K K −1 est une v.a. centrée qui représente l’erreur

d’estimation.
( ) ( )
2
On a Var X$ K = Var X K − Xˆ K K −1 = E X K − Xˆ K K −1
= Var X K − ∑ λî λˆ j cov ( Yi , Y j ).

i, j
Et si ΓY est inversible =
Var X K − ⎡⎣Cov ( X K , Y j ) ⎤⎦ ΓY−1 ⎡⎣Cov ( X K , Y j ) ⎤⎦ .

T
Démonstration :
1) X K − Xˆ K K −1 ⊥ H K −1 ⇔ X K − Xˆ K K −1 ⊥ 1, Y1 ,..., YK −1
Y
– X K − Xˆ K K −1 ⊥ 1 ⇔
⎛ ⎛ K −1 ⎞⎞
( )
E X K − Xˆ K K −1 1 = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ jY j ⎟ ⎟ = 0
⎜ ⎟
⎝ ⎝ j =1 ⎠⎠
Estimation 149
Soit EX K = λˆ 0 + ∑ λˆ j EY j ; (1)
j
– X K − Xˆ K K −1 ⊥ Yi ⇔
⎛ ⎛ ⎞⎞
( )
E X K − Xˆ K K −1 Yi = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ j Y j ⎟ ⎟ Yi = 0 .
⎜ ⎟
⎝ ⎝ j ⎠⎠
Soit EX K Yi = λˆ 0 EYi + ∑ λˆ j EY jYi . (2)

j
De (1) on tire λˆ 0 = EX K − ∑ λˆ j EY j que l’on porte dans (2).

j
Il vient :
⎛ ⎞
EX K Yi = ⎜ EX K − ∑ λˆ j EY j ⎟ EYi + ∑ λˆ j EY j Yi
⎝ j ⎠ j
= EX K EYi − ∑ λˆ j ( EY j Yi − EY j EYi ) .
j
C’est-à-dire :
∀i = 1 à K −1 ∑ λˆ j Cov (Y j , Yi ) = Cov ( X K , Yi )
j
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ ⎜ ⎟
ou, sous forme matricielle ΓY ⎜ # ⎟ = ⎜ # ⎟.
⎜ˆ ⎟ ⎜ ⎟
⎝ λ K −1 ⎠ ⎝ Cov ( X K , YK −1 ) ⎠
– Si ΓY est non inversible :
Rappelons les équivalences :

ΓY non inversible ⇔ ΓY est semi-définie positive ⇔ les v.a.

Y1 − EY1 ,..., YK −1 − EYK −1 sont linéairement dépendantes dans L2
⇔ dim H KY−1 < K − 1 ;
Sous cette hypothèse, il existe une infinité de K-uples ( λˆ ,..., λˆ ) (et donc
1 K −1
aussi une infinité de λ̂ 0 ) qui vérifient la dernière égalité matricielle mais toutes les
expressions λˆ 0 + ∑ λˆ jY j sont égales à la même v.a. Xˆ K K −1 d’après l’unicité de la
j
projection orthogonale sur un sous espace de Hilbert.
– Si ΓY est inversible :
Les v.a. Y − EY ,..., Y − EY sont linéairement indépendantes dans

1 1 K −1 K −1
L2 , les coefficients λˆ 0, λˆ 1,..., λˆ K −1 sont uniques et on obtient
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟ K −1
⎜ # ⎟ = Γ Y ⎜ # ⎟ et 0 K ∑ j j
ˆ = EX − λˆ EY
λ
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟ j =1
⎝ K −1 ⎠ ⎝ K K −1 ⎠
2) X K − Xˆ K K −1 est centrée (évident).
( )
X K = X K − Xˆ K K −1 + Xˆ K K −1 et comme X K − Xˆ K K −1 ⊥ X K
d’après le théorème de Pythagore.
2
⎛ ⎞
( )
2
E X K − Xˆ K K −1 = EX K2 − EXˆ 2 = EX K2 − E ⎜ λˆ 0 + ∑ λˆ jY j ⎟
K K −1 ⎜ ⎟
⎝ j ⎠
et puisque λˆ 0 = EX K − ∑ λˆ j EY j ,
j
Estimation 151
2
⎛ ⎞
E ( X K − X K K −1 ) = − E ⎜ EX K − ∑ λˆ j ( Y j − EY j ) ⎟
2
EX K2
⎝ j ⎠
= EX K − E ( EX K ) − 2 EX K ∑ λˆ j Y j − EY j
2 2
( )
j
+ ∑ λî λˆ j (Yi − EYi ) ( Y j − EY j ) .

i, j
( ) = Var X K − ∑ λˆ i λˆ j Cov (Yi , Y j ) .

2
D’où E X K − Xˆ K K −1
i, j
⎛ λˆ1 ⎞
⎜ ⎟
Soit sous forme matricielle = Var X K − λˆ 1,..., λˆ ( K −1 ) ΓY ⎜ # ⎟ .
⎜ˆ ⎟
⎜ λK −1 ⎟
⎝ ⎠
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟
Et si ΓY est inversible comme ⎜ # ⎟ = ΓY ⎜ # ⎟.
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟
⎝ K −1 ⎠ ⎝ K K −1 ⎠
Il vient :
( )
2
E X K − Xˆ K K −1
⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟.
= Var X K − ( Cov ( X K , Y1 ) , ... , Cov ( X K , YK −1 ) ) ΓY−1 ⎜ # ⎟
⎜ Cov ( X , Y ) ⎟
⎝ K K −1 ⎠
REMARQUE.– Si Cov ( X K , Y1 ) = 0,..., Cov ( X K , YK −1 ) = 0 , les v.a. Yj

n’apportent aucune information pour estimer en moyenne quadratique la v.a. X K −1 .
En nous reportant d’ailleurs aux formules précédents :

⎛ λˆ 1 ⎞ ⎛ 0⎞
⎜ ⎟ −1 ⎜ ⎟
⎜ # ⎟ = ΓY ⎜ # ⎟ et Xˆ K K −1 = λˆ 0 = EX K .
⎜ˆ ⎟ ⎜ 0⎟
⎝ λ K −1 ⎠ ⎝ ⎠
2
On retrouve le résultat connu : étant donné une v.a. X ∈ L , la v.a. qui
minimise Z → E ( X K − Z ) est
2
X̂ = EX .
L2 "
K −1
DÉFINITION.– L’hyperplan de "
K
d’équation x = λˆ 0 + ∑ λˆ j y j s’appelle plan de
j =1
régression de X en Y1 ,..., YK −1.
Pratiquement :
1) Les hypothèses statistiques sur les processus X ∗ et Y ∗ nous ont permis

! !
de calculer les valeurs numériques λˆ 0 , λˆ 1,..., λˆ K −1 et donc d’obtenir le plan de

K −1
régression x = λˆ 0 + ∑ λˆ j y j (les y j et x parcourant " ).
j =1
2) On veut connaître la valeur xK prise par X K ; on recueille les

observations y1 ,..., yk −1 et on déduit donc l’estimation cherchée xˆ K K −1 (cette fois
des valeurs déterminées).
3) On est assuré que la vraie valeur xK prise par la v.a. X K est dans
l’intervalle ⎤ xˆ K K −1− C , xˆ K K −1+ C ⎡ avec une probabilité supérieure à :
⎦ ⎣
( )
2
E X K − X K K −1
1− 2
,
C
valeur qui se calcule en utilisant la formule de la proposition précédente.
Estimation 153
CAS PARTICULIER.– Soit à estimer : X 2 à partir de la seule v.a. d’observation Y1 ,

c’est-à-dire, soit à trouver X̂ 2 1 = λˆ 0 + λˆ 1Y1 ,
E ( X 2 − ( λ 0 + λ 1Y1 ) ) . D’après la proposition :

2
qui minimise
λˆ1 = (VarY1 ) Cov ( X 2 , Y1 ) et λˆ0 = EX 2 − (VarY1 ) Cov ( X 2 , Y1 ) EY1 .

−1 −1
Cov ( X 2 , Y1 )
Donc Xˆ 2 1 = EX 2 + (Y1 − EY1 ).
VarY1
Figure 4.3. Droite de régression
Valeur de la variance d’erreur d’estimation :
( )
2
= VarX 2 − Cov ( X 2 , Y1 )(VarY ) Cov ( X 2 , Y1 )
−1
EX$ 2 2 = E X 2 − Xˆ 2 1
⎛ ( Cov ( X 2 , Y1 ) )2 ⎞
= VarX 2 ⎜ 1 − ⎟.
⎜ VarX 2 VarY1 ⎟
⎝ ⎠
REMARQUE.– Il peut être intéressant de noter le parallèle existant entre le problème

de la meilleure estimation en moyenne quadratique de X K et celui de la meilleure
approximation dans L2 d’une fonction h par un polynôme trigonométrique. Posons
B ([ 0,T ]) = tribu des boréliens de l’intervalle [ 0, T ] et donnons un tableau des

correspondances.
H K −1 ⊂ L ( Ω, a, P )
y 2
H ∈L
2
([ 0, T ] , B ([ 0, T ]) , dt )
L2 ( dt )
{ }
L ( dP ) = v.a. X
{ }
2 2
EX < ∞ T 2
= f boréliennes ∫0 f ( t ) dt < ∞
Produit scalaire : ∀X , Y ∈ L
2
( dP ) Produit scalaire : f , g ∈ L
2
( dt )
< X , Y > = EXY T
< f , g >= ∫ f ( t ) g ( t ) dt
∫ X ( ω ) Y ( ω ) dP ( ω )
0
=
Ω
Pour j = − K à K
Pour j =1 à K −1 Y j ∈ L ( dP )
2
e j (t ) =
exp ( 2iπ jt T ) ∈ L ( dt ) 2
T
Espace linéaire : Espace linéaire :
H
Y
K −1
= H (1, Y1 , ..., YK −1 ) H ( e− K ,..., e0 ,..., eK )
Problème : Problème :
Etant donné la v.a. X K ∈ L

2
( dP ) Etant donné la fonction h ∈ L
2
( dt )
Trouver λˆ 0 , λˆ 1, ..., λˆ donc
K −1 Trouver λˆ −K , ..., λˆ
K donc trouver ĥ qui
trouver Xˆ K K −1 qui minimise minimise
2 K
h (t ) − ∑ λ e ( t ) dt
T
⎛ ⎛ k −1
⎞⎞ ∫
E ⎜ XK − ⎜ λ0 + ∑ λ j Y j ⎟ ⎟ 0
j =− K
j j
⎝ ⎝ j =1 ⎠⎠
Estimation 155
Dans le problème de la meilleure approximation d’une fonction par un polynôme

trigonométrique, les coefficients λˆ j ont une expression très simple car les ej
forment une base orthonormée de H ( e− K ,..., eK ) et on a :
1 T λˆ j
λˆ j = ∫0 h ( t ) e j ( t ) dt et C j = coefficients de Fourier.
T T
Variante de la proposition précédente
⎧⎪ K −1 ⎫⎪
On considère l’espace linéaire d’observation H KY−1 = ⎨ ∑ λ jY j λ j ∈ " ⎬ et
⎪⎩ j =1 ⎪⎭
K −1
on cherche donc la v.a. Xˆ K K −1 = ∑ λˆ jY j qui minimise l’application
j =1
Z → E( XK − Z ).
H KY−1 "
Posons M Y ( )
= ⎡⎣ E YiY j ⎤⎦ matrice des moments d’ordre 2 du vecteur aléatoire
Y1 ,..., YK −1 .
On a la proposition suivante.
PROPOSITION.–
⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞
⎜ ⎟ ⎜ ⎟ et si M est inversible :
1) Les λˆ j vérifient M Y ⎜ # ⎟ = #
⎜ ⎟ Y
⎜ λK −1 ⎟ ⎜⎝ EX K YK −1 ⎟⎠
⎝ ⎠
⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞
⎜ ⎟ −1 ⎜ ⎟.
⎜ # ⎟ = MY ⎜ #
⎟
⎜ λK −1 ⎟ ⎜ EX Y ⎟
⎝ ⎠ ⎝ K K −1 ⎠
( )
2
2) E X K − X K K −1 = EX K2 − ∑ λî λˆ j EYiY j et si M Y est inversible
i, j
⎛ EX K Y1 ⎞
= EX K2 − ( EX K Y1 ,..., EX K YK −1 ) M Y−1
⎜ #
⎟.
⎜ ⎟
⎜ EX Y ⎟
⎝ K K −1 ⎠
Dorénavant et dans toute la suite de cet ouvrage, l’espace linéaire d’observation
⎧ K −1 ⎫
à l’instant K −1
Y
sera H K −1 = ⎨ ∑ λ1Y j λ j ∈ " ⎬ .
⎩ j =1 ⎭
INNOVATION.– Soit un processus discret (YK ) K∈!∗ qui (comme ce sera le cas en
filtrage de Kalman) peut être le processus d’observation d’un autre processus
( X K ) K∈! ∗ et posons YˆK K −1 = projH Y YK ; YˆK K −1 est donc la meilleure
K −1
estimation linéaire et en moyenne quadratique de la v.a. YK .
DÉFINITION.– On appelle innovation à l’instant K ( ≥ 2 ) , la v.a.
I K = YK − YˆK K −1 .
On appelle processus d’innovation la famille de v.a. { I 2 ,..., I K ,...} .
4.3. Meilleure estimation – Espérance conditionnelle
On cherche à améliorer le résultat en considérant comme estimation de X K non

K −1
plus uniquement les fonctions linéaires ∑ λ jY j des v.a. Y1 ,..., YK −1 mais les
j =1
fonctions générales g (Y1 ,..., YK −1 ) .
PROPOSITION.– La famille des v.a.

Estimation 157
{
H K′Y−1 = g (Y1 ,..., YK −1 ) g : " K −1 → " boréliennes,
tel que g ( Y1 ,..., YK −1 ) ∈ L

2
} est un sous espace vectoriel fermé de L2 .
DÉMONSTRATION.–
{
Notons encore L ( dP ) = v.a.Z EZ < ∞ = espace de Hilbert muni du
2 2
}
produit scalaire : ∀Z1 , Z 2 ∈ L
2
( dP ) < Z1 , Z 2 > L ( dP ) = EZ1Z 2 ;
2
Par ailleurs, f
Y (y
1
, ..., y
K −1 ) désignant la densité du vecteur
Y = (Y1 ,..., YK −1 ) , posons pour simplifier l’écriture :
d µ = fY ( y1 ,..., yK −1 ) dy1...dyK −1
et introduisons le nouvel espace de Hilbert {
L2 ( d µ ) = g : " K −1 → "
borélienne ∫" K −1
g 2 ( y1 ,..., yK −1 ) d µ < ∞} .
Il est muni du produit scalaire : ∀g1 , g 2 ∈ L2 ( d µ )
< g1 , g 2 > L2 ( d µ ) = ∫ K −1 g1 ( y1 ,..., yK −1 ) g 2 ( y1 ,..., yK −1 ) d µ .

"
Soit enfin l’application linéaire :
Ψ:g → g (Y ) = g (Y1 ,..., YK −1 )

L2 ( d µ ) L2 ( dP ) .
On constate que ψ conserve le produit scalaire (et la norme) :
< g1 (Y ) g 2 (Y ) > L2 ( dP ) = Eg1 (Y ) g 2 (Y ) = ∫ g1 ( y ) g 2 ( y ) dy

" K −1
=< g1 , g 2 > L2 ( d µ )
Par hypothèse H K′Y−1 ⊂ L2 ( dP ) , vérifions que H K′ −1 est un sous espace

Y
vectoriel de L
2
( dP ) :
Soient Z1 et Z 2 ∈ H K′Y−1 et soient deux constantes λ 1 et λ 2 ∈ " . Il existe
g1 ∈ L2 ( d µ ) tel que Z1 = g1 (Y ) et il existe g 2 ∈ L2 ( d µ ) tel que
Z2 = g2 ( µ ) .
Donc λ 1Z1 + λ 2 Z 2 = λ 1Ψ ( g1 ) + λ 2 Ψg 2 = Ψ ( λ 1 g1 + λ 2 Z 2 ) et comme
λ 1 g1 + λ 2 g 2 ∈ L2 ( d µ ) , H K′Y−1 est bien un sous espace vectoriel de L2 ( dP ).
Montrons ensuite que H K′Y−1 est fermé dans L2 ( dP ).
Soit Z p = g p (Y ) = Ψ g p ( ) une suite de H K′Y−1 qui converge vers
Z ∈ L2 ( dP ) .
Vérifions que Z ∈ H K′ −1 :
Y
g p (Y ) est une suite de Cauchy de H K′Y−1 et à cause de l’isométrie, g p (Y )

est une suite de Cauchy de L
2
(dµ ) et qui converge donc vers une fonction
g ∈ L ( d µ ) , c’est-à-dire :
2
( g p ( y ) − g ( y ) ) d µ = E ( g p (Y ) − g (Y ) )
2 2
gp − g =∫ → 0.
L2 ( d µ ) " K −1 p ↑∞
Comme la limite de g p (Y ) est unique, g (Y ) = Z , c’est-à-dire que
Z ∈ H K′Y−1 et que H K′Y−1 est fermé.
Finalement H K′Y−1 est un sous espace de Hilbert de L2 ( dP ).
Revenons à notre problème : soit à estimer la v.a. XK.

Estimation 159
Le meilleur estimateur Xˆ ′ = gˆ (Y1 ,..., YK −1 ) ∈ H K′Y−1 de X K , c’est-à-dire

K K −1
l’estimateur qui minimise E ( X K − g ( Y1 ,..., YK −1 ) )

2
est (toujours en vertu du
théorème déjà cité sur les espaces de Hilbert) la projection orthogonale de X K sur
H K′Y−1 .
Soit : Xˆ ′ = gˆ ( Y1 ,..., YK −1 ) = projH ′Y X K .

K K −1 K −1
Figure 4.4. Projection orthogonale du vecteur XK sur H K′Y-1
1
⎛
( ⎞
)
2 2
⎜ E X K − Xˆ K′ K −1 ⎟
⎝ ⎠
H K′ Y−1
XK
H KY−1 Xˆ K′ K −1
Xˆ K K −1
L ( dP )
2
1
⎛
( )
2⎞ 2
ˆ
⎜ E X K − X K K −1 ⎟
⎝ ⎠
Figure 4.5. Meilleure estimation linéaire et meilleure estimation

Il est clair qu’on a les inclusions H KY−1 ⊂ H K′Y−1 ⊂ L2 ( dP ) donc a priori
étant donné X K ∈ L
2
( dP ) − H K′Y−1 , Xˆ ′
K K −1
sera une meilleure approximation
de X K que Xˆ K K −1 , ce que l’on visualise dans la figure 4.5.
2
Dans la figure 4.5, les v.a. (vecteur de L ) sont représentés par des points et les
normes des erreurs d’estimation par des segments.
Enfin, pour résoudre entièrement le problème posé, on cherche à calculer

Xˆ K′ K −1 .
PROPOSITION.– Xˆ K′ K −1 = gˆ (Y1 ,..., YK −1 ) = projH ′Y X K

K −1
(
est l’espérance conditionnelle E X K Y1 ,..., YK −1 . )
DÉMONSTRATION.–
1) Vérifions pour commencer que la v.a.
g (Y1 ,..., YK −1 ) = E ( X Y1 ,..., YK −1 ) ∈ L2 ( dP )
(∫ )
2
or ( g ( y1 ,..., y K −1 ) ) = ( g ( y ) ) = xi1 f ( x y ) dx ,
2 2
"
et par l’inégalité de Schwarz :
≤ ∫ x 2 f ( x y ) dx ∫ 12 f ( x y ) dx
" &'
" '('' )
=1
donc :
Eg (Y1 ,..., YK −1 ) = ∫ g 2 ( y1 ,..., yk −1 ) fY ( y ) dy

2
" K −1
≤∫ f
" K −1 Y
( y ) dy ∫" x 2 f ( x y ) dx.
En posant encore ici U = ( X , Y1 ,..., YK −1 ) et en rappelant que :
fU ( x, y ) = fY ( y ) f ( x y ) on a par le théorème de Fubini :

Estimation 161
E ( g (Y1 ,..., YK −1 ) ) ≤ ∫ x 2 dx ∫ K −1 fU ( x, y ) dy = EX 2 < ∞ .

2
" "
&'' ('')
fX ( x)
On a donc bien g (Y1 ,..., YK −1 ) ∈ L ( dP )

2
et aussi, étant donné la définition
de H K′Y−1 , g (Y1 ,..., YK −1 ) ∈ H K′Y−1 .
(
2) Pour montrer que g (Y1 ,..., YK −1 ) = E X K Y1 ,..., YK −1 est la projection )
orthogonale Xˆ K′ K −1 = gˆ (Y1 ,..., YK −1 ) = projH ′Y X K , il suffit, comme cette
K −1
projection est unique, de vérifier l’orthogonalité
X K − E ( X K Y1 ,..., YK −1 ) ⊥ H K′Y−1 .
C’est-à-dire :
∀ g (Y1 ,..., YK −1 ) ∈ H K′Y−1 X K − E ( X K Y1 ,..., YK −1 ) ⊥ g (Y1 ,..., YK −1 )
(
⇔ EX K g (Y1 ,..., YK −1 ) = E E ( X K Y1 ,..., YK −1 ) g (Y1 ,..., YK −1 ) . )
Or, le premier membre EX K g (Y1 ,..., YK −1 ) = ∫" K
xg ( y ) f Z ( x, y ) dx dy
=∫ xg ( y ) f ( x y ) fY ( y ) dx dy
"K
et en appliquant le théorème de Fubini :
= ∫" ( ∫" xf ( x y ) dx ) g ( y ) fY ( y ) dy qui est égal au 2e membre

K −1
E ( E ( X K Y1 ,..., YK −1 ) g (Y1 ,..., YK −1 ) ) et la proposition est démontrée.
Pratiquement, le vecteur aléatoire U = ( X K , Y1 ,..., YK −1 ) étant associé à un

phénomène physique, biologique, etc., la réalisation de ce phénomène nous donnera
K − 1 valeurs numériques y1 ,..., y K −1 et les réponses finales au problème seront les
valeurs numériques :
K −1
xˆ K K −1 = ∑ λˆ j y j
j =1
dans le cas de l’estimation linéaire ;
xˆ ′K K −1 = E ( X K y1 ,..., yK −1 )
dans le cas de l’estimation générale.
On montre maintenant que dans le cas gaussien Xˆ K K −1 et Xˆ K′ K −1 coïncident.
Plus précisément :
PROPOSITION.– Si le vecteur U = ( X K , Y1 ,..., YK −1 ) est gaussien, on a l’égalité

entre v.a.
⎛ K −1 ⎞
Xˆ K′ K −1 = Xˆ K K −1 + E ⎜ X K − ∑ λˆ jY j ⎟ .
⎜ ⎟
⎝ j =1 ⎠
DÉMONSTRATION.–
⎛ K −1 ⎞
( X K , Y1 ,..., YK −1 ) vecteur gaussien ⇒ ⎜⎜ X K − ∑ λˆ jY j , Y1 ,..., YK −1 ⎟⎟
⎝ j =1 ⎠
est également gaussien.
K −1
Posons V = X K − ∑ λˆ jY j .
j =1
V est orthogonal à H KY−1 donc EVY j = 0 ∀ j =1 à K −1 et les deux

vecteurs V et (Y1 ,..., YK −1 ) sont décorrélés.
On sait que si le vecteur (V , Y1 ,..., YK −1 ) est gaussien et que V et
(Y1 ,..., YK −1 ) sont décorrélés, alors V et (Y1 ,..., YK −1 ) sont indépendants.

Estimation 163
FINALEMENT.–
⎛ K −1 ⎞
E ( X K Y1 ,..., YK −1 ) = E ⎜ ∑ λˆ jY j + V Y1 ,..., YK −1 ⎟
⎝ j =1 ⎠
K −1
= ∑ λˆ j Y j + E (V Y1 ,..., YK −1 ) .
j =1
Et puisque V et Y1 ,..., YK −1 sont indépendants :
K −1
E ( X K Y1 ,..., YK −1 ) = ∑ λˆ jY j + EV .
j =1
EXEMPLE.– Soit U = ( X K , YK −1 ) = ( X , Y ) un couple gaussien de densité
⎛ 2 2 ⎞
fU ( x, y ) =
1
π 3
exp ⎜ −
⎝ 3
(
x − xy + y 2 ⎟ .
⎠
)
On veut déterminer E X Y . ( )
La loi marginale de Y admet la densité :
⎛ 2 x 2 − xy + y 2 ⎞ dx
fY ( y ) = ∫ "
1
π 3
exp ⎜ −
⎝ 3
( ) ⎟⎠
1 ⎛ y2 ⎞ ⎛ 2 ⎛ y⎞ ⎞
2
= ∫ exp ⎜ − ⎟ ⎜ ⎜
exp − x − ⎟ ⎟ dx
π 3 ⎝ 2 ⎠ ⎝ 3⎝ 2⎠ ⎠
"
1 ⎛ y2 ⎞ 1 ⎛ 2 2⎞
=
2π
exp ⎜ − ⎟ ∫ exp ⎜ − u ⎟ du
⎝ 3 ⎠
⎝ 2 ⎠ 3π
"
2
1 ⎛ y ⎞ 2
= exp ⎜ − ⎟
2π ⎝ 2 ⎠
f Z ( x, y ) ⎛ 2 x 2 − xy + y 2 ⎞ 2π exp ⎛ y ⎞
2
f ( x y) =
fY ( y )
=
1
π 3
exp ⎜ −
⎝ 3
( ) ⎟⎠ ⎜ ⎟
⎝ 2 ⎠
2 ⎛ 2⎛ y⎞ ⎞
2
= exp ⎜ − ⎜x− ⎟ ⎟
3π ⎝ 3⎝ 2⎠ ⎠
⎛ ⎞
( x − y 2 ) ⎟⎟ .
2
1 1
= exp ⎜ −
2π i 3 ⎜ 2i 3
4 ⎝ 4 ⎠
Donc : sachant Y = y , X suit une loi N ( y 2 , 34) ; c’est-à-dire :
1
E ( X y) = y et E ( X Y ) = Y (fonction linéaire de Y ; λˆ = ).
2 2 2
⎛ 1 ⎞
(Ici EV = E ⎜ X − Y ⎟ = 0 car X et Y sont centrés).
⎝ 2 ⎠
4.4. Exemple : prédiction d’un processus autorégressif AR (1)
Considérons le processus stationnaire du 2e ordre X* défini par

∞
∀K ∈ * XK = ∑ q j BK − j et solution de l’équation X K = qX K −1 + BK
j =∞
avec q réel tel que q < 1 et où BZ est un bruit blanc de puissance EBK = σ .
2 2
Au chapitre précédent nous avons calculé sa fonction de covariance et obtenu :
n
q
EX i X i + n =σ 2
.
1 − q2
Ayant observé les v.a. X 1 ,..., X K −1 , on cherche la meilleure estimation linéaire
et en moyenne quadratique Xˆ K + + K −1 de X K + + ,
Estimation 165
K −1
Xˆ K ++ K −1 = ∑ λˆ jY j et les λˆ j vérifient :
j =1
⎛ EX 1 X 1 … EX 1 X K −1 ⎞ ⎛ λˆ1 ⎞ ⎛ EX K ++ X 1 ⎞
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ # # ⎟ ⎜ # ⎟=⎜ # ⎟
⎜ EX X - EX X ⎟ ⎜ ˆ ⎟ ⎜ EX X ⎟
⎝ K −1 1 K −1 K −1 ⎠ ⎝ λK −1 ⎠ ⎝ K + + K −1 ⎠
soit
⎛ 1 q - q K −2 ⎞ ⎛ λˆ1 ⎞ ⎛ q K + + −1 ⎞
⎜ K −3
⎟⎜ ⎟ ⎜ K ++−2 ⎟
⎜q 1 -q ⎟⎜ ⎟ ⎜q ⎟
⎜ # ⎟ ⎜ ⎟ =⎜ ⎟ .
# # #
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ q K −2 - 1 ⎟ ⎜ λˆ ⎟ ⎜ q + +1 ⎟
⎝ ⎠ ⎝ K −1 ⎠ ⎝ ⎠
On a la solution ( λˆ ,..., λˆ
1 ) = ( 0,..., 0, q ) et cette solution est
ˆ
K − 2 , λK −1
+ +1
unique car le déterminant de la matrice est égal à (1 − q )

2 K −2
≠ 0.
Donc Xˆ K + + K −1 = λˆK −1 X K −1 = q X K −1 .
+ +1
On voit que la prédiction de la v.a. X k ++ n’utilise que la dernière v.a. observée.
C’est-à-dire ici X K −1 .
La variance de l’erreur d’estimation vaut :
( ) ( )
2 2
E X K ++ − Xˆ K ++ K −1 = E X K ++ − q + +1 X K −1 =
EX K2 ++ + q ( ) EX K2 −1 − 2q + +1EX K ++ X K −1 =
2 + +1 σ2
1− q 2
1− q
2( + +1)
( )
4.5. Processus multivariés
Dans certains problèmes pratiques, on peut avoir à considérer des processus

d’état X ∗ et des processus d’observation Y ∗ qui sont tels que :
! !
⎛ X 1j ⎞ ⎛ Y j1 ⎞
⎜ ⎟ ⎜ ⎟
⎜# ⎟ ⎜# ⎟
⎜ +⎟ ⎜ ⎟
∀j ∈ !∗ X j = ⎜ X j ⎟ et Y j = ⎜ Y j+ ⎟
⎜# ⎟ ⎜# ⎟
⎜ ⎟ ⎜ ⎟
⎜ X nj ⎟ ⎜ Y jm ⎟
⎝ ⎠ ⎝ ⎠
où ∀ j et + X j et
+
Y j+ ∈ L2.
On dira alors que :

– X j et Y j sont des multivecteurs (vecteurs parce que les X +j et les Y j+
appartiennent à l’espace vectoriel L2 ; multi car X j et Y j sont des ensembles de
plusieurs vecteurs) ;
– n est l’ordre du multivecteur X j et m est l’ordre du multivecteur Y j ;
( ) ( )
n m
– X j ∈ L2 et Y j = L2 ;
– X !∗ et Y!∗ sont des processus multivariés, les processus considérés

jusqu’à présent (à valeur dans " ) étant dits scalaires.
Opérations sur les multivecteurs :

– on peut additionner deux multivecteurs de même ordre, et si X et
X ′∈ L ( )2 n
alors X + X ′∈ L ( )2 n
;
– on peut multiplier un multivecteur par une constante réelle. Et si
( ) ( )
n n
X ∈ L2 et λ ∈" alors λ X ∈ L2 ;
– produit scalaire de deux multivecteurs non nécessairement de même ordre :
( ) ( )
n m
soient X ∈ L2 et Y ∈ L2 .
Estimation 167
On pose < X , Y >= EXY ∈ M ( n, m ) où M ( n, m ) est l’espace des

T
matrices à n lignes et m colonnes.
On note par Onm la matrice identiquement nulle de M ( n, m ) .
DÉFINITION.– On dit que les multivecteurs X et Y sont orthogonaux si

< X , Y >= Onm et on écrit X ⊥ Y .
REMARQUE.– Si X et Y sont orthogonaux, Y et X le sont aussi.

2
On pose X =< X , X >= EXX T .
2
X étant une matrice définie positive, on sait qu’il existe une matrice
2
symétrique définie positive notée X tel que X = X X .
2
Toutefois, dans la suite nous n’utiliserons que ⋅ .
REMARQUE.– L’ensemble des multiplicateurs de même ordre ( (L )2 m

par exemple)
pourrait être muni d’une structure d’espace vectoriel. Sur cet espace le symbole
⋅ défini ci-avant serait une norme.
Ici nous considérerons l’ensemble des multivecteurs d’ordre n ou m. Cet

ensemble n’est pas un espace vectoriel et ne peut donc pas être muni d’une norme.
2 2
Donc pour nous, dans la suite X ne signifiera pas ( norme de X ) . Pour la
même raison, ce n’est que par abus de langage que l’on parlera du produit scalaire
< X ,Y > .
Espace linéaire d’observation H KY−1

Soit donc le processus d’état multivarié X vérifiant :
!∗
( ) et soit le processus d’observation multivarié Y

n
∀j ∈ !∗ X j ∈ L2 !∗
vérifiant
∀j ∈ !∗ Y ∈(L ) .
j
2 m
Par généralisation de la définition donné au 4.2, on note :
⎧⎪ K −1 ⎫⎪
H KY−1 = H (Y1 ,..., YK −1 ) = ⎨ ∑ j j j
Λ Y Λ ∈ M ( n, m ) ⎬
⎩⎪ j =1 ⎭⎪
et on dira encore que H KY−1 est l’espace linéaire d’observation jusqu’à l’instant
K −1.
REMARQUE.– Les éléments de H KY−1 doivent être des multivecteurs d’ordre n , car
c’est parmi eux que l’on choisira la meilleure estimation de X K , multivecteur
d’ordre n . H KY−1 est donc adapté à X K .
NOTATIONS.–
1) Orthogonal de H KY−1 : c’est l’ensemble noté H KY−,⊥1 des multivecteurs V

vérifiant V ∈ H KY−,⊥1 Y
si et seulement si V est orthogonal à H K −1 .
⎛0⎞ ⎫
⎜ ⎟ ⎪ Y
2) 0H = # ⎬ n zéros, multivecteur nul de H K −1 .
⎜ ⎟
⎜0⎟ ⎪
⎝ ⎠ ⎭
Problème de la meilleure estimation
Généralisant le problème développé au 4.2. au cas des processus multivariés, on

⎛ X 1K ⎞ ⎛ Z1 ⎞
⎜ ⎟ ⎜ ⎟ Y
cherche à approximer X K = ⎜ # ⎟ par des éléments Z = ⎜ # ⎟ de H K −1 ,
⎜Xn ⎟ ⎜Zn ⎟
⎝ K⎠ ⎝ ⎠
la distance entre X K et Z étant :
Estimation 169
K −1 2
tr X K − Z
2
= trE ( X K − Z )( X K − Z ) = ∑ E
T
j =1
( X Kj −Z j
)
2 2
(où tr X K − Z signifie « trace de la matrice X K − Z »).
Le résultat suivant généralise le théorème de projection sur les sous espaces de

Hilbert et apporte la solution.
THÉORÈME.–
K −1
– Il existe Xˆ K K −1 = ∑ Λˆ jY j unique appartenant à H KY−1 qui minimise
j =1
2
l’application Z → tr X K − Z
;
H KY−1 "
– Xˆ K K −1 est la projection orthogonale de X K sur H KY−1 , c’est-à-dire
X K − Xˆ K K −1 ⊥ H KY−1 , c’est-à-dire encore :
< X K − Xˆ K K −1 , Y j >= Onm ∀j = 1 à K −1.
Nous pouvons imager ce théorème par le schéma suivant dans lequel tous les
vecteurs apparaissant sont des multivecteurs d’ordre n :
Figure 4.6. Projection orthogonale du multivecteur XK sur H KY-1

NOTATION.– Dans la suite toutes les projections orthogonales (sur H KY −1

exclusivement) seront notées indifféremment :
Xˆ K K −1 ou projH Y X K ; YˆK K −1 ou projH Y YK etc.

K −1 K −1
De ce théorème on déduit les propriétés suivantes :
P1) Soit X K et X K ′ ∈ L ( )2 n
(
alors .
X + X′ ) K K −1
= Xˆ K K −1 + Xˆ K′ K −1 .
En effet :
∀j = 1 à K − 1 < X K − Xˆ K K −1 , Y j >= Onm et < X K′ − Xˆ K′ K −1 , Y j >= Onm .
Donc :
(
∀j = 1 à K − 1 < X K − X K′ − Xˆ K K −1 + Xˆ K′ K −1 , Y j >= Onm . )
Et puisque la projection orthogonale de X K + X K′ est unique, on a bien :
(.
X + X ′)
K K −1
= Xˆ K K −1 + Xˆ K′ K −1.
P2) Soit X K ∈ L ( ) 2 n
et une matrice H ∈ M ( m, n ) ;
alors (.
HX ) K K −1 = HXˆ K K −1 .
Il suffit de vérifier que HX K − HXˆ K ⊥ H KY−1 car cela entraînera que :

K −1
HXˆ K = (.
HX ) K
K −1 K −1
puisque la projection orthogonale (ici sur l’espace H KY−1 ) est unique.

Estimation 171
Or par hypothèse < X K − Xˆ K

K −1
(
, Y j >= E X K − Xˆ K
K −1
)Y T
j = Onm .
Donc aussi par associativité du produit matriciel :
(
Omm = HE X K − Xˆ K
K −1
)Y T
j (
= EH X K − Xˆ K
K −1
)Y T
j
=< HX K − HXˆ K , Y jT
K −1
et on a bien HX K − HXˆ K ⊥ H KY−1 .

K −1
Ces propriétés vont être utilisées dans la suite.
Processus d’innovation I
!∗
Ayant en vue le filtrage de Kalman, nous supposons ici que X !∗ et Y ∗ sont

!
les deux processus multivariés posés précédemment et liés par les équations d’état et
d’observation :
⎛ X K +1 = A ( K ) X K + C ( K ) N K
⎜⎜
⎝ YK = H ( K ) X K + G ( K ) WK
où
A ( K ) ∈ M ( n , n ) ; C ( K ) ∈ M ( n , + ) ; H ( K ) ∈ M ( m, n ) ; G ( K ) ∈ M ( m , p ),
et où N et W!∗ sont des bruits (processus multivariés) satisfaisant à un certain

!∗
nombre d’hypothèses mais dont la seule qui soit nécessaire ici est :
∀j = 1 à K − 1 < WK , Y j >= EWK YjT = O pm .
1) Si n = m :
YK et YˆK K −1 sont deux multivecteurs de même ordre m . La différence

YK − YˆK K −1 a donc un sens et en accord avec la définition donné en 4.2, on définit
l’innovation à l’instant K ≥ 2 par I K = YK − YˆK K −1 .
Exprimons maintenant I K sous la forme qui nous sera utile dans la suite.
Par la deuxième équation d’état :
I K = YK − projH Y
K −1
( H ( K ) X K + G ( K )WK ),
en utilisant la propriété P1 d’abord et P2 ensuite
I K = YK − H ( K ) Xˆ K K −1 − (.
G ( K ) WK ) K K −1 .
Si p ≠ m ( et de n ) , (.
G ( K ) W ) K K −1 n’est pas égal à G ( K ) Wˆ K K −1 et
d’ailleurs ce dernier produit matriciel n’a pas de sens.
Vérifions pour terminer que (.

G ( K )WK ) K K −1 = OH .
Par définition de la projection orthogonale :
<G ( )W
K K − (.
G ( K )WK ) K K −1 , Y j > = 0mm ∀ j = 1 à K − 1.
Par hypothèse sur le bruit W!∗ :
< G ( K ) WK , Y j >= G ( K ) < WK , Y j > = 0mm ∀ j = 1 à K − 1.
On en déduit :
(.
G ( K ) W ) K K −1 , Y j = 0mm ∀ j = 1 à K − 1 , c’est-à-dire :
Estimation 173
.
K −1 et ( G ( K ) WK ) K K −1 = 0H .
G ( K ) WK ∈ H"
Y ,⊥
Finalement I K = YK − YˆK K −1 = YK − H ( K ) Xˆ K K −1 .
2) Si n ≠ m :
YK et YˆK K −1 sont des multivecteurs d’ordre différent et YK − YˆK K −1 n’a pas de
sens et on définit directement I K = YK − H ( K ) Xˆ K K −1 .
Finalement et dans tous les cas ( n égal ou différent de m ) :
DÉFINITION.– On appelle innovation à l’instant K ≥ 2 ;

(
le multivecteur I K ∈ H K -1
Y, ⊥
) d’ordre m , défini par I K = YK − H ( K ) Xˆ K K −1 .
REMARQUE.– On ne confondra pas l’innovation avec :
DÉFINITION.– On appelle erreur de prédiction de l’état à l’instant K le multivecteur

d’ordre n défini par X$ K = X K − Xˆ K .
K −1 K −1
Propriété de l’innovation :
1) I K ⊥ Y j ∀j = 1 à K − 1 ;
2) I K ′ ⊥ I K ∀K et K ′ ≥ 2 avec K ≠ K ′.
DÉMONSTRATION.–
1) I K = YK − H ( K ) Xˆ K K −1 = H ( K ) X K + G ( K ) WK − H ( K ) Xˆ K K −1
donc :
( )
< I K , Y j > = < H ( K ) X K − Xˆ K K −1 + G ( K ) WK , Y j >
en utilisant l’associativité du produit matriciel.

Puisque :
( )
< H ( K ) X K − Xˆ K K −1 , Y j > = H ( K ) < X K − Xˆ K K −1 , Y j > 0mm
et puisque :
< G ( K ) WK , Y j > = G ( K ) < WK , Y j > Omm
on a bien < I K , Y j > = 0 et I K ⊥ Y j .
2) Sans perte de généralité supposons par exemple K ′ > K :
< I K ′ , I K > = < I K ′ , YK − H ( K ) Xˆ K K −1 > .
Y ,⊥
Et ce produit scalaire égale Omm car I K ′ ∈ H K ′−1 et
YK − H ( K ) Xˆ K K −1 ∈HKY (Y
K )
∈ HKY et H ( K ) Xˆ K K −1 ∈ HKY−1 .
Enoncé 4.1.
Soit une famille de v.a. du second ordre X , Y1 ,..., YK ,... on veut estimer X à
partir des Y j et on pose : Xˆ K = E ( X Y1 ,..., YK ) .
Vérifier que E ( Xˆ K +1 Y1 ,..., YK ) = Xˆ K .
(On dit que le processus X̂ !∗ est une martingale par rapport à la suite des YK ).
Enoncé 4.2.
Soit {U j }
j ∈ ! une suite de v.a. indépendantes, du second ordre, de loi
N (0, σ 2 ) et soit θ une constante réelle.
Estimation 175
On définit une nouvelle suite X j j ∈ ! { ∗

} par
⎛ X1=U1
⎜
⎝ X j =θU j−1+U J si j ≥ 2.
1) Montrer que ∈∀k ∈ ! , le vecteur X

∗ K
= ( X1 ,..., X K ) est gaussien.
2) Préciser l’espérance, la matrice de les variances et la densité de probabilité

de ce vecteur.
3) Déterminer la meilleur prédiction en m.q de X k + P à l’instant K = 2 ;
(
c’est-à-dire calculer E X 2+ P X 1 , X 2 . )
Solution 4.2.
⎛1 0 - 0 ⎞
⎜θ 1 0 - 0 ⎟
1) Considérons la matrice A= ⎜ ⎟ appartenant à M ( K , K ).
⎜# #⎟
⎜ ⎟
⎝ 0 - 0 θ 1⎠
En posant U
K
= (U1 ,...U K ) ,on peut écrire X K = AU K . Le vecteur U K
étant gaussien (composantes gaussiennes et indépendantes), il en va de même pour
K
le vecteur X .
2) EX K = EAU K = AEU K = 0
( )
Γ X = A σ 2 I AT = σ 2 AAT ( I = matrice identité ).
Par ailleurs :
(
Det Γ X K = det ) (σ 2
)
AAT = σ 2 n et Γ X K est inversible.
1 ⎛ 1 T −1 ⎞
On obtient f X K ( x1 ,..., xK ) = exp ⎜ −x ΓX K x ⎟.
( 2π ) σ
n/2 n
⎝ 2 ⎠
3) Le vecteur ( X1, X 2 , X 2+ P ) est gaussien ; donc la meilleure prédiction de

Xˆ 2+ P est la meilleure prédiction linéaire, c’est-à-dire :
Xˆ 2+ P = E ( X 2+ P X 1 , X 2 ) = projH X 2+P
où H est l’espace linéaire engendré par les v.a. X1 et X 2 .
⎛ λˆ ⎞ ⎛ C ov ( X 2+ P , X1 ) ⎞
Xˆ 2+ P = λˆ, X1 + λˆ2 X 2 avec ⎜ 1 ⎟ = Γ −X12 ⎜
⎜ C ov ( X , X ) ⎟⎟
Donc ;
⎜ λˆ ⎟
⎝ 2⎠ ⎝ 2+ P 2 ⎠
or C ov ( X J , X K ) = EX J X K = θ si K − j = 1 ;
C ov ( X J , X K ) = EX J X K = 0 si K − j > 1 ;
⎛ C ov ( X 2 P +1 , X 1 ) ⎞ ⎛ 0 ⎞
donc si p > 1 ⎜
⎜ C ov ( X ⎟⎟ = ⎜ ⎟ et Xˆ 2+ P = 0 ;
⎝ 2 P+2 , X )
2 ⎠ ⎝0⎠
⎛ λˆ1 ⎞ 1 ⎛ 1 + θ 2 −θ ⎞ ⎛ 0 ⎞ θ θ
2
si p = 1 ⎜ ⎟=
⎜ λˆ ⎟ σ 2 ⎜⎝ −θ ⎟ ⎜ ⎟ et Xˆ 3 = − 2 Xˆ 1 + 2 Xˆ 2 .
⎝ 2⎠ 1 ⎠ ⎝θ ⎠ σ σ
Enoncé 4.3.
⎛ X K +1 = A ( K ) X K + C ( K ) N K (1)
On considère le système d’état ⎜⎜
⎝ YK = H ( K ) X K + G ( K ) WK ( 2)
où
A ( K ) ∈ M ( n, n ) ; C ( K ) = M ( n, + ) ; H ( K ) = M ( m, n ) ; G ( K ) = M ( m, p )
Estimation 177
et oùX 0 , N K ,WK ( pour K ≥ 0 ) sont des multivecteurs du second ordre tel que
∀j ≤ K WK est orthogonal à X 0 , N 0 ,..., N j −1 , W0 ,..., W j −1 .
Montrer que ( )
∀j ≤ K < H ( j ) X j − Xˆ j j −1 ,WK >= 0mp .
Solution 4.3.
( )
< H ( j ) X j − Xˆ j j −1 , WK > =
⎛ j −1
ˆ ( H ( i ) X + G ( i ) W ) ⎞⎟ , W >
< H ( j ) ⎜ A ( j − 1) X j −1 + C ( j − 1) Ν j −1 − ∑ Λ i i i K
⎝ i =1 ⎠
(où ˆ sont les matrices optimales de M ( n, m )).

Λ i
Compte tenu des hypothèses d’orthogonalité de l’énoncé, ce produit scolaire se

j −1
⎛ ⎞
réduit à < H ( j ) ⎜ A ( j − 1) X j −1 − ∑ Λˆ i H ( i ) X i ⎟ ,WK > .
⎝ i −1 ⎠
Par ailleurs en réitérant la relation récurrences (1) ,on voit que X i s’exprime en
fonction de X i −1 et Ν i −1 et aussi de X i −2 , Ni −2 , Ni −1... et aussi de
X 0 , N0 , N1 ,..., Ni −1 .
Donc,H ( j ) A ( j − 1) X j −1 et H ( j ) Λˆ i H ( i ) X i sont des multivecteurs

d’ordre m dont chacune des m « composantes » ne comporte que des v.a.
orthogonales à chacune des p « composantes » de WK , multivecteur d’ordre p .
(
Finalement, on a bien < H ( j ) X j − Xˆ j j −1 ) ,W
K > = 0 mp.
CHAPITRE 5
Le filtre de Wiener
5.1. Introduction
Le filtrage de Wiener est une méthode d’estimation d’un signal perturbé par un
bruit additif.
La réponse de ce filtre au signal bruité, correlé avec le signal à estimer, est

2
optimale au sens du minimum dans L .
Le filtre doit être pratiquement réalisable et stable si possible, en conséquence sa

réponse impulsionnelle doit être causale et les pôles à l’intérieur du cercle unité.
Le filtrage de Wiener est très utilisé en raison de sa simplicité, pour autant, les
signaux à analyser doivent être des processus stationnaires du second ordre.
Exemples d’applications : traitement de la parole, exploration pétrolière,

mouvement de la houle, etc.
5.1.1. Position du problème
Dans la figure 5.1, X K , WK et YK représentent les 3 processus d’entrée, h est

ici la réponse impulsionnelle du filtre, ZK la sortie du filtre qui donnera Xˆ K
l’estimée à l’instant k, de X K quand le filtre sera optimal. Tous les signaux sont
nécessairement des processus stationnaires du second ordre.
Figure 5.1. Représentation de la transmission,

h est la réponse impulsionnelle du filtre que l’on va rechercher
Nous appellerons :
( )
T
Y = YK YK −1 !Y j !YK − N +1
le vecteur représentatif du processus de durée N à l’entrée du filtre de réalisation :
( )
T
y = yK yK −1 ! y j ! yK − N +1 .
( )
T
h = h 0 h 1! hN −1 le vecteur représentant les coefficients de la réponse
impulsionnelle que l’on pourrait identifier au vecteur λ du chapitre 4.
– XK l’échantillon à estimer à l’instant K ;
– Xˆ K l’échantillon estimé de X K à l’instant K ;
– ZK sortie du filtre à cet instant = hT Y .
Le critère utilisé est le critère quadratique classique.
Le filtre est optimal quand :
( )
2
Min E ( X K − Z K ) = E X K − Xˆ K
2
.
Le problème consiste à obtenir le vecteur h qui minimise cette erreur.

Le filtre de Wiener 181
5.2. Résolution et calcul du filtre Finite Impulse Response (FIR)
L’erreur s’écrit :
ε K = X K − hT Y
( )
N
avec h ∈ "N et Y ∈ L2 .
Nous avons une fonction C : coût à minimiser qui est une application :
(
h 0 , h 1,! , hN −1 → C h 0 , h 1,! hN −1 = E (ε K2 ) ) .
N
" → "
Le vecteur hˆ = hoptimal est tel que ∇ h C = 0
( )
2
soit C = E X K − hT Y (scalaire)
alors ∇ hC = −2 E (ε K Y ) (vecteur Nx1).
REMARQUE.– C’est le théorème de projection sur les espaces de Hilbert. Nous

retrouvons, bien évidemment le principe de l’orthogonalité.
Cette erreur quadratique moyenne sera minimale quand :
E (ε K Y ) = 0 soit quand h = hˆ .
⎛ ⎞
En utilisant l’expression de εK : E⎜ XK − hˆT Y ⎟ Y = 0 ;
⎝ ⎠
toutes les composantes du vecteur sont nulles (ou E X K ( − )

Xˆ K Y = 0 ).
Soit E ( X K Y ) = E Y Y ( T
) hˆ .
Nous appellerons :
Le vecteur r d’intercorrélation :
(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
R la matrice d’autocorrélation des données observables :
⎛ YK ⎞
⎜ ⎟
Y
R = E ⎜ K −1 ⎟ (YK YK −1 !YK − N +1 ) = E Y Y T
N ×N ⎜ # ⎟ ( )
⎜⎜ ⎟⎟
⎝ YK − N +1 ⎠
et r = R hˆ équation de Wiener-Hopf sous forme matricielle.
REMARQUE.– En prenant la ligne j ∈ [ K , K − N +1]
nous obtenons :
N −1
( )
rXY ( j ) = E X K YK − j = ∑ hî RYY ( j − i ) ∀j ∈ [ K , K − N +1]
i =0
Equation de Wiener-Hopf.
Si la matrice R est non singulière, on en tire :
ĥ = R −1 r .
5.3. Evaluation de l’erreur minimale
D’après le théorème de projection :
(
E XK − )
Xˆ K Y = 0 et :
(
E XK − )
Xˆ K Xˆ K = 0.
Ainsi l’erreur minimale prend la forme :
(ε ) = E ( X Xˆ )
2
2
C min = Min E K K − K
= E(X Xˆ ) X
K − K K
= E(X 2
Xˆ ) .
K −
2
K
Mais Xˆ K = hˆ Y .
T
Ainsi C min = Min E (ε K ) 2 = R XX ( 0 ) − hˆT r.
Connaissant la matrice d’autocorrelation R des données à l’entrée du filtre et le

vecteur r d’intercorrelation, nous pouvons en déduire le filtre optimal de réponse
impulsionnelle ĥ et l’erreur quadratique moyenne minimale pour un ordre N
donné du filtre.
Exemple d’application : donner les coefficients du filtre de Wiener pour N = 2

si la fonction d’autocorrélation du signal à estimer s’écrit RXX (K ) = a K ; 0〈 a 〈1
et celle du bruit : RWW ( K ) = δ ( K = 0) bruit blanc.
Le signal à estimer est non corrélé au bruit ( X ⊥ W ) .
⎛2 a⎞ ⎛1 ⎞
Soit R = ⎜ ⎟ ; r = ⎜ ⎟.
⎝ a 2⎠ ⎝a⎠
Car RYY = RXX + RWW .
Nous en déduisons :
T
⎛ 2 − a2 a ⎞
ˆ
h=⎜ 2 ⎟
4 − a2 ⎠
et Min E (ε ) = 4 −2a
2
K 2
.
⎝ 4−a
Revenons à notre calcul de filtre FIR.
Le filtre que nous venons d’obtenir est de la forme :
( )
T
hˆ = hˆ 0 hˆ 1 ! hˆ N −1
de longueur N finie : sa fonction de transfert s’écrit :
N −1
H ( z ) = ∑ hˆ i z −i
i =0
avec une relation entrée-sortie de la forme Xˆ ( z ) = H ( z )Y ( z ) .
Elargissons cette classe de filtres du type « FIR » et donnons une méthode

d’obtention de filtres du type IIR.
5.4. Résolution et calcul du filtre Infinite Impulse Response (IIR)
Pour ce faire nous allons procéder à un pré-blanchiement du signal

d’observation.
Tout d’abord rappelons une définition : on dit que Α( z ) fonction rationnelle
représente un système à phase minimale si Α( z ) et 1 sont analytiques

Α( z )
dans l’ensemble { z | z > 1} c’est-à-dire si les zéros et pôles de Α( z ) sont à
l’intérieur du disque unité.
De plus le système à phase minimale et son inverse sont stables.
Théorème de Paley-Wiener
iω
Soit une fonction SYY ( z ) vérifiant quand z = e :
∞
SYY (eiω ) = ∑ sn e −inω fonction réelle et ≥ 0 ;
−∞
2π
∫ ln SYY (eiω ) dω < ∞ .

0
Alors, il existe une suite an causale de transformée en z , Α( z ) qui vérifie :
SYY ( z ) = σ ε2 A ( z ) A z −1 . ( )
σ ε2 représente la variance d’un bruit blanc et Α( z ) représente en outre un système
à phase minimale. De plus la factorisation de SYY ( z ) est unique.
Α( z ) étant un système à phase minimale, 1 est causal et analytique dans

Α( z )
{ z | z > 1} . Puisque les an coefficients du filtre A ( z ) sont réels :
( )
2
SYY (eiω ) = σ ε2 Α(eiω ) Α e−iω = σ ε2 Α(eiω ) Α(eiω ) = σ ε2 Α(eiω )
1
c’est-à-dire : σ ε2 = 2
SYY (eiω ) .
iω
Α(e )
1
Donc le filtre blanchit le processus YK , K ∈ Z .
Α( z )
Schématiquement :
REMARQUE.– A ( z )
2
( )
= A ( z ) . A z −1 si les coefficients de A ( z ) sont réels.
A présent, ayant pré-blanchi l’entrée, le problème se ramène au calcul d’un filtre

B ( z ) de la manière suivante :
Ainsi B ( z ) = A ( z ) . H ( z )
A ( z ) , étant connue par SYY ( z ) et H ( z ) devant être optimal, alors B ( z ) doit

aussi être optimal.
Appliquons l’équation de Wiener-Hopf au filtre B( z) :
r X ε ( j ) = ∑ bî R
i
εε ( j − i ) .
Soit rX ε ( j ) = bˆ j σ ε2 .
rX ε ( j )
Ainsi bˆ j = 2
.
σε
∞
Et B ( z ) = ∑ bˆ j z − j pour B ( z ) causale.
j =0
∞
1
Ainsi B ( z ) =
σε 2 ∑ rX ε ( j ) z − j .
j =0
La somme représente la transformée en z de l’intercorrelation rX ε ( j) pour
les indices j ≥ 0 que nous écrirons ⎡⎣ S X ε ( z ) ⎤⎦ .

+
∞
1
Ainsi : B ( z ) =
σε 2 ∑ rX ε ( j ) z − j
j =0
Il nous faut à présent établir une relation entre S X ε ( z ) et S XY ( z ) .
En effet nous pouvons écrire :
RXY ( K ) = E (( X n + K Yn ) )
⎛ ∞ ⎞
= E ⎜ X n + K ∑ ai ε n −i ⎟
⎝ i =0 ⎠
∞
RXY ( K ) = ∑ ai RX ε ( K + i)
i =0
Qui peut encore s’écrire :
−∞
RXY ( K ) = ∑ a−i RX ε ( K − i) = a− k ∗ RX ε (K )
0
En prenant la transformée en z des 2 membres :
( )
S XY ( z ) = A z −1 S X ε ( z )
Il vient :
1
⎡ S ( z)⎤
H (Z ) = 2 ⎢ XY ⎥
σ ε A ( z ) ⎢ A z −1 ⎥
⎣ ⎦+ ( )
5.5. Evaluation de l’erreur minimale
Cette erreur minimale s’écrit :
C min = E (ε K X K ) quand h = hˆ
= Rε X ( 0)
qui peut également s’écrire :
⎛ ⎞
C min = E ( X K − Xˆ K ) X K ou = RXX ( 0 ) − E ⎜⎜ hˆT YX K ⎟⎟
⎝ ⎠
soit C min = RXX ( 0 ) − hˆT r déjà rencontrée dans le cas du filtre FIR.
Mais cette fois, le nombre d’éléments dans la somme est infini :
∞
C min = RXX ( 0 ) − ∑ hî RXY ( i )
i =0
ou :
∞
C min = RXX ( 0 ) − ∑ hî RYX ( −i )
i =0
En faisant apparaître une convolution :
C min = RXX ( 0 ) − hˆ j ∗ RYX ( j ) j =0
Expression qui peut également s’écrire, en prenant les transformées en z :
1
∫C (0,1) ( S XX ( z ) − H ( Z ) SYX ( z ) ) z
−1
C min = dz
j 2π
Enoncé 5.1.
Soit à estimer un signal X K , dont la fonction d’autocorrelation est :
1 1
RXX ( K ) = δ ( K =0) + ⎡⎣δ ( K =−1) + δ ( K =1) ⎤⎦
2 4
Les mesures y K = xK + nK du processus YK sont filtrées par un filtre de

Wiener de réponse h .
Le bruit N K est orthogonal au signal X K et :
1
Rnn ( K ) = δ ( K =0)
2
1) Donner la réponse du filtre de Wiener (FIR) d’ordre 2 ;
2) Donner l’erreur minimale obtenue.
Solution 5.1.
1) hˆ = R r =(7 /15
−1
2 /15)T .
2) C min = σ X − r hˆ = 7 / 30 avec σ X2 = RXX (0) = 1/ 2 .

2 T
Enoncé 5.2.
On se propose de calculer un filtre d’ordre 2 (FIR).
YK l’entrée du filtre a la forme YK = X K + WK où X K est le signal émis et

où WK est un bruit blanc orthogonal à X K (les processus sont tous stationnaires du
2e ordre).
Connaissant les autocorrélations statistiques :
K
RXX ( K ) = a et R WW ( K ) = N δ ( K =0)
et sachant :
hˆ = R r hˆ : h
-1
optimal.
Avec :
⎛ YK ⎞
⎜ ⎟
YK −1 ⎟
R =E
N ×N
⎜
⎜ # ⎟
( YK YK −1 !YK − N +1 ) = E Y Y T ( )
⎜⎜ ⎟⎟
⎝ YK − N +1 ⎠
(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
1) Donner les 2 composantes du vecteur ĥ représentant la réponse
impulsionnelle.
2) Donner l’erreur quadratique moyenne minimale.
3) Allure de cette erreur pour N = 1 et 0 < a < 1 .
4) On souhaite à présent calculer un filtre optimal du type IIR. En considérant

les mêmes données que précédemment, donnez la fonction de transfert du filtre.
5) Donner la réponse impulsionnelle.
6) Donner l’erreur quadratique moyenne minimale.
REMARQUE.– On pourra poser : b + b

−1
=
1
N
(a −1
) (
− 1 + a −1 + a )
Solution 5.2.
1
1) hˆ = 2 2
(1 + N − a 2 aN )T
(1 + N ) − a
1+ N − a2 + a2 N
2) C min = 1 −
(1 + N ) 2 − a 2
3)
Figure 5.2. Tracé de la fonction erreur ou coût en fonction du paramètre a
2
1 A 1− a Na
et σ ε =
2
4) H ( z ) = −1
avec A =
σ ε 1 − bz
2
1 − ab b
n
5) hn≥0 = cb avec c =
(1 − a ) b
2
Na (1 − ab )
c
6) C min = 1 −
1 − ab
Enoncé 5.3. [SHA 88]
Soit { X K | K = 1 à N} un ensemble de N variables aléatoires tel que

Ε( X K ) = 0 et var X K = σ x2 émises par une source.
A la réception, on obtient la suite numérique y K = xK + wK réalisation du

processus YK = X K + WK où wK est un bruit blanc centré de variance σ ω2 .
γ =σx
2
1) Donner le filtre de Wiener en fonction de N et γ en posant , le
σ ω2
rapport signal à bruit.
2) Donner l’erreur minimale en fonction de σ x2 , N et γ .
REMARQUE.– On pourra utiliser l’équation de Wiener-Hopf.
Solution 5.3.
γ
1) h j =
1 + Nγ
σ x2
2) C min =
1 + Nγ
CHAPITRE 6
Filtrage adaptatif : algorithme

du gradient et du LMS
6.1. Introduction
Par traitement adaptatif, on entend une classe particulière et pourtant très large
d’algorithmes d’optimisation qui sont mis en œuvre en temps réel dans les systèmes
de transmission d’information à distance.
Les propriétés des algorithmes adaptatifs sont que, d’une part, ils permettent
l’optimisation d’un système et son adaptation à son environnement sans intervention
extérieure et que, d’autre part, cette optimisation est aussi assurée en présence de
fluctuation de l’environnement au cours du temps.
Il est à noter également que le succès des techniques adaptatives est tel qu’on ne
les rencontre plus seulement en télécommunications mais aussi dans des domaines
très divers tels que détection sous-marine, détection périmétrique, reconnaissance
des formes, antennes réseaux, séismologie, instrumentation bio-médicale, traitement
de la parole et des images, identification des systèmes en automatique, etc.
Parmi les applications citées ci-dessus, différentes configurations se présentent,

illustrées par les figures 6.1 à 6.4.
Nous allons, au cours de ces quelques pages, expliquer le principe du filtrage

adaptatif et établir les premiers résultats mathématiques.
Figure 6.1. Prédiction
Figure 6.2. Identification
Figure 6.3. Déconvolution
Figure 6.4. Annulation

Filtrage adaptatif 195
Nous nous limiterons, dans un premier temps, aux processus stationnaires du

second ordre et aux algorithmes dits du gradient déterministe et du LMS (appelé
aussi gradient stochastique). Dans un deuxième temps, nous étendrons ce concept
aux signaux non stationnaires en présentant le filtrage de Kalman au chapitre
suivant.
6.2. Position du problème [WID 85]
A partir d’observations prises à l’instant K (que nous noterons yK :

réalisations) issues d’un capteur ou d’un système inconnu, on désire réaliser :
– soit une prédiction sur le signal ;
– soit une identification du système inconnu ;
– soit une déconvolution (ou filtrage inverse) ;
– soit une annulation d’échos.
Pour y parvenir, on fera une optimisation, au sens des moindres carrés, en

minimisant l’erreur obtenue dans les différents cas.
EXEMPLE.– Soit le prédicteur suivant :
Figure 6.5. Prédicteur
Les 3 courbes ci-dessous représentent :

1) entrée X K observées par xK : signal à prédire ;
2) sortie du filtre Z K observées par z K ;
3) erreur résiduelle ε K données par ε K .

Il apparaît nettement que εK tend vers 0 à partir d’un certain temps, temps au
bout duquel le filtre converge.
Figure 6.6. Tracés de l’entrée, sortie et erreur.

Ces courbes ont été obtenues avec des processus à temps continu
6.3. Représentation des données
La forme générale d’un filtre adaptatif peut être la suivante :
Figure 6.7. Schéma de principe avec entrées multiples

Les signaux d’entrée peuvent être issus simultanément de capteurs (cas d’une
antenne adaptative, par exemple), ou bien ils peuvent représenter les différents
échantillons, pris à des instants différents, d’un seul signal.
Nous prendrons comme notation :
( )
T
– entrées multiples : Y
K
= YK0 YK1 ... YKm−1
= (YK YK −1 ... YK −m+1 )

K T
– entrée unique : Y
Dans le cas d’une entrée unique que nous considérerons par la suite, nous
aurions la configuration suivante.
Figure 6.8. Schéma de principe du prédicteur
Ecrivons la sortie Z K :
m −1
Entrée unique : Z K = ∑
i =0
λK YK −i
i
En appelant λK le vecteur poids ou coefficients, écrit aussi sous la forme :
( )
T
λK = λK0 λK1 ... λKm−1 , nous pouvons utiliser une notation vectorielle unique :
Z K = Y K T λK = λKT Y K .
Notre système n’étant pas parfait, nous obtenons une erreur, celle-ci s’écrit :
ε K = DK − Z K
avec DK qui représente la sortie désirée (ou X K ), c’est-à-dire, la variable aléatoire
que l’on cherche à estimer. Le critère que nous avons choisi d’exploiter est le critère
des moindres carrés : il consiste à choisir le meilleur vecteur λK , qui minimisera
l’erreur quadratique moyenne E (ε )2

K
, ou la fonction coût C ( λK ) .
6.4. Minimisation de la fonction coût
Si notre système (filtre) est linéaire et non récursif, nous aurons toujours une
fonction coût quadratique et elle pourra être représentée par une paraboloïde
elliptique (dim 2) (ou un hyperparaboloïde si la dimension est supérieure). Les
projections (isocoûts) représentées par les ellipses sur la figure ci-après sont de la
forme : aλ0 + bλ1 + cλ0 λ1 + d λ0 + eλ1 + f = 0
2 2
Illustrons une telle fonction coût :
Figure 6.9. Représentation de la fonction coût ([MOK 00] pour le tracé)

C ( λK ) = E (ε ) = E {( D
2
K K − ZK )
2
}
Celle-ci peut encore s’écrire :
C ( λK ) = E {( DK − λKT Y K )}
2
Le minimum de cette fonction est atteint lorsque :
(λK )
∇ λ C ( λK ) =
K
∂C
∂λK
=E {( D K − λKT Y K )( −2Y )} = 0 (vect. nul de ( ! m )
K
pour λK = λoptimal = λˆ avec :
T
⎛ ⎞
∇ λK C ( λK ) = grad C ( λK ) = ⎜⎜ ∂C ( λ0K ) ,..., ∂C (mλ−K1 ) ⎟⎟
⎝ ∂λK ∂λK ⎠
( )
T
λˆ = λˆ 0 λˆ1 ... λˆ m−1 minimise λ K → C ( λK ) et λ̂ annule grad C ( λK )
Nous retrouvons le résultat classique : l’erreur est orthogonale à l’observation
(principe de l’orthogonalité ou théorème de projection). εK ⊥ Y K
Posons R = E Y ( K
)
Y KT la matrice d’autocorrélation du signal d’entrée.
⎧ YK2 YK YK −1 … YK YK −m+1 ⎫
⎪ ⎪
⎪ Y Y YK2−1 " YK −1 YK − m+1 ⎪
(
R = E Y K Y KT ) = E ⎨ K −1 K
# # #
⎬
⎪ ⎪
⎪ YK −m+1 ⎭⎪
2
⎩YK −m +1 YK YK − m+1 YK −1
et p = E DK Y ( K
) le vecteur colonne d’intercorrélation entre la réponse désirée et
le signal d’entrée.
( )
p = E DK Y K = E ( DK YK DK YK −1 ... DK YK −m+1 )
T
Ainsi le gradient de la fonction coût devient :
( ) (
E DK Y K − E Y K Y KT λK ) =0
Soit p − Rλˆ = 0 .
REMARQUE.– C’est aussi l’équation de Wiener-Hopf.
Le vecteur qui satisfait cette équation est le vecteur optimal :
λˆ = R −1 p si R est inversible.
6.4.1. Calcul du coût
( ) ( )
C ( λK ) = E DK2 + λKT E Y K Y KT λK − 2 E DK Y KT λK ( )
( )
ainsi C ( λK ) = E DK + λK R λK − 2 p λK .
2 T T
Pour λ̂ la valeur optimale de λK l’erreur minimale s’écrit :
()
C min = C λˆ = E DK2 − pT λˆ ( )
REMARQUE.– Il est intéressant de remarquer que l’erreur et le signal d’entrée Y ne
sont pas corrélés quand λK = λˆ . En effet :
ε K = DK − λKT Y K
En multipliant les deux membres par Y et en prenant l’espérance
mathématique, nous obtenons :
E (ε KY
K
) = p − E (Y K
)
Y KT λK = p − RλK .
Pour la valeur optimale de λK nous avons : E (ε KY

K
)=0
Exemple de calcul du filtre :
Le système suivant est un filtre adaptatif pouvant identifier un système

déphaseur.
ϕ est une grandeur déterministe
Figure 6.10. Schéma de principe d’un filtre adaptatif identifiant un système déphaseur
Si ∅ est équirépartie sur [0, 2π ] on a montré au chapitre 3 que YK est

stationnaire du 2e ordre. Calculons les éléments de la matrice R.
⎡ ⎛ 2π n ⎞ ⎛ 2π
E ( Yn Yn − K ) = E ⎢sin ⎜ + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥
⎣ ⎝ N ⎠ ⎝ N ⎠⎦
2π K
= 0, 5 cos K ∈ [ 0,1]
N
⎡ ⎛ 2π n ⎞ ⎛ 2π
E ( Dn Yn − K ) = E ⎢ 2 sin ⎜ − ϕ + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥
⎣ ⎝ N ⎠ ⎝ N ⎠⎦
⎛ 2π K ⎞
= cos ⎜ −ϕ ⎟
⎝ N ⎠
La matrice d’autocorrelation R des données d’entrée et le vecteur d’intercorrélation

p s’écrivent :
⎛ 2π ⎞
⎛ YK2 YK YK −1 ⎞ ⎜ 0, 5 0, 5 cos
N ⎟
R = E⎜
⎜Y Y ⎟⎟ = ⎜ ⎟
⎝ K −1 K YK2−1 ⎠ ⎜⎜ 0, 5 cos 2π 0, 5 ⎟⎟
⎝ N ⎠
T
⎛ ⎛ 2π ⎞⎞
p = E ( DK YK DK YK −1 )
T
= ⎜ cos ϕ cos ⎜ −ϕ ⎟⎟
⎝ ⎝ N ⎠⎠
Le coût s’écrit :
2π ⎛ 2π
( )
C ( λK ) = 0,5 (λ 0 )2 + (λ1 ) 2 + λ 0 λ1 cos
N
− 2λ 0 cos ϕ − 2λ1 cos ⎜
⎝ N
⎞
−ϕ ⎟ + 2
⎠
Ainsi nous obtenons :
λˆ = R −1 p
T
2 ⎛ ⎛ 2π ⎞ ⎞
λˆ = ⎜ sin ⎜ −ϕ ⎟ sin ϕ ⎟
2π ⎝ ⎝ N ⎠ ⎠
sin
N
ˆ( )
C λ =E ( D ) − p λˆ
2
K
T
( )
et ici, le calcul nous donne : C λˆ = 0 .
6.5. Algorithme du gradient
Nous avons vu précédemment que le vecteur λ optimal, c’est-à-dire celui qui

minimise le coût C ( λK ) s’écrit :
λˆ = R −1 p .
Or, pour résoudre cette équation, il nous faut inverser la matrice

d’autocorrélation. Cela peut entraîner des calculs conséquents si cette matrice R
n’est pas de Toeplitz,(c’est-à-dire que ses éléments sont de la forme R( i − j ) = R|i − j|

et qu’elle est de type positif) d’où l’idée de résoudre cette équation par une méthode
itérative.
Examinons l’évolution du coût C ( λK ) tracé précédemment.

Soit λK le vecteur coefficients (ou poids) à l’instant K . Si nous voulons
parvenir au λ optimal, il nous faut faire évoluer λK à chaque itération, en tenant
compte de sa position relative entre l’instant K et K +1 .
Pour un coût C (λ j ) donné, le gradient de C (λ j ) par rapport au vecteur
( ) (λ j ) .
T
λ j = λ 0j λ1j ... λ mj −1 est normal à C
Pour que l’algorithme converge, il faut bien évidemment que pour :
K> j ; C ( λK ) < C ( λ j )
Et comme nous l’avons déjà écrit, le minimum sera atteint quand :
∇ λK C ( λK ) = 0
D’où l’idée d’écrire que, plus le gradient sera important, plus nous serons
éloignés du minimum et qu’il suffit de modifier le vecteur des coefficients d’une
manière récursive de la façon suivante
λK +1 = λK + µ ( −∇λ C ( λK ) ) K
(égalité dans ! )
m
et que l’on nomme : algorithme du gradient déterministe avec :
∇ λ C ( λK ) = −2 E
K
(ε K
YK )
avec Y
K
( )
= YK0 YK1 ...YKm−1 notation du processus multivarié que nous avons vu
au début du chapitre 4 et cette dernière écriture de ∇ λ C
K
( λK ) est égale à :
= −2 ( p − R λK )
avec µ : paramètre qui agit sur la stabilité et la rapidité de convergence vers λ̂ .
Justification théorique
Si l’application λ = (λK0 λK1 " λKm−1 ) → C ( λ K ) 1 m

est de classe C ( ! ) on a
l’égalité :
C ( λK +1 ) − C ( λK ) = 〈∇ λ C ( λK ) , λK +1 − λK 〉 + o ( λK +1 − λK
K
)
m
où : 〈, 〉 et désignent respectivement le produit scalaire et la norme dans ! .
Donc si λK +1 est assez proche de λK , on a l’approximation :
C ( λK +1 ) − C ( λK ) $ 〈∇ λ C ( λK ) , λK +1 − λK 〉
K
dont on déduit en particulier que la variation C ( λK +1 ) - C ( λK ) de C ( λK ) est

maximale si les vecteurs ∇ λ
K
C ( λK ) et λK +1 − λK sont colinéaires.
Pour atteindre le plus rapidement possible le minimum de C ( λK ) on se place

donc dans ce cas là et ∀K on écrit :
λK +1 − λK = µ ( −∇λ C ( λK ) )K
soit λK +1 = λK + µ ( −∇λ C ( λK ) ) .
K
Par ailleurs, en utilisant l’expression :
λK +1 = λK + 2 µ E (ε K Y K ) ,
on peut écrire :
n −1
λK + n = λK + 2 µ ∑ E (ε K + jY K + j )
j =0
et si le processus multivarié d’ordre m , ε K + jY K + j est stationnaire du 2e ordre

λ K + n = λK + 2 µ n E (ε K YK . )
Mais cette dernière écriture est inexploitable sur un plan pratique sauf sous
certaines conditions d’ergodicité, ce que nous allons voir dans le paragraphe suivant.
6.6. Estimation du gradient et algorithme LMS
(LMS : Least Mean Square : moyenne quadratique minimale)
Toutefois, il est difficile de résoudre l’expression ∇ λ

K
C ( λK ) = 0 qui nécessite
K
la connaissance de lois des composantes du vecteur Y et l’utilisation
d’algorithmes permettant l’inversion de matrice.
% %
Aussi, nous pouvons considérer les estimées p et R de p et de R dans le
calcul du gradient.
En effet :
∇ λK C ( λK ) = −2 ( p − RλK )
% % %
(
∇ λK C ( λK ) = −2 p − RλK )
Les grandeurs estimées seront les données observées.
% K
Soit : p = y dK
% K
et R = y y KT
%
ainsi ∇ λ C
K
( λK ) = -2 ε K yK
% %
et λK +1 = λK + 2µε K y K
Cette écriture récursive sur λK revient à supprimer le calcul de l’espérance, en

effet :
λK +1 = λK + 2 µ E (ε K YK )
devient :
% %
λK +1 = λK + 2µ ε K y K
appelé algorithme LMS qui appartient à la classe d’algorithmes dit du « gradient

stochastique ».
Or, il se trouve que les itérations successives de cet algorithme récursif réalisent
d’elles-mêmes l’espérance mathématique incluse dans cette formule par moyennage
statistique [MAC 81].
Pour être mis en œuvre, cet algorithme nécessite, à chaque pas d’incrémentation
de connaître le couple DK et Z K . Or nous en avons la connaissance aux instants
K grâce au filtrage λK car
Z K = λKT Y K et z K = λK y K en considérant les données,
et nous connaissons, bien évidemment, la référence DK .
∗
Nous pouvons écrire pour n ∈ & :
% % 1 n −1
λ K + n = λK + ( 2 µ n )
n
∑ yK+ j εK+ j
j =0
( )
K+ j T
avec y = yK + j yK −1+ j ... yK −m+1+ j
si µ est constant à chaque pas d’itération.
On voit que si µ tend vers 0, n doit tendre vers l’infini de sorte que :
1 n −1 K + j
∑ y εK+ j → E Y K
n j =0
( ε ) K
si le processus ε K + jY K + j est ergodique du 1er ordre. On retrouve la relation :

λ K + n = λK + 2 µ n E (ε K YK )
obtenue à la section 6.5. Ainsi, dans la recherche du vecteur optimal λ̂ les
algorithmes du gradient déterministe et du LMS conduisent au même résultat.
6.7. Interprétation géométrique
Donnons une autre écriture au coût.
Nous avions trouvé : C ( λK ) = E ( DK2 ) + λKT R λK − 2 pT λK avec :
«C (λˆ ) = E ( D ) − p λˆ avec p = Rλˆ

2
K
T
solution de Wiener de ∇ λ C
K
( λK ) = 0 »
Le coût peut se mettre sous la forme :
()
C ( λK ) = C λˆ + λˆT p + λKT RλK − 2λKT p
= C ( λˆ ) + (λˆ − λ K)
T
p + λKT RλK − λKT p
= C ( λˆ ) + (λˆ − λ K)
T
p + λKT R(λK − λˆ )
= C ( λˆ ) + (λˆ − λ K)
T
Rλˆ + (λK − λˆ )T RλK
= C ( λˆ ) + (λˆ − λ K)
T
R(λˆ − λK )
( λK ) = C ( λˆ ) + ( λK − λˆ ) ( )
T
ou C R λK − λˆ .
Posons α K = λK − λˆ .
il vient : C ( λK ) =C (λˆ + α K ) = C (λˆ ) + α KT R αK
Et facilement : ∇α
K
C ( λK ) = 2 R α K .
Par changement de base simplifions les expressions précédentes afin de trouver

des interprétations géométriques simples.
La matrice R étant symétrique, on sait qu’elle est diagonalisable par une matrice
orthogonale Q, c’est-à-dire :
Γ = Q −1RQ .
⎛γ 0 0 ⎞
−1 ⎜ ⎟
⎟ où les γ sont les valeurs propres
T i
Avec Q = Q et Γ = ⎜ '
⎜0 γ m −1 ⎟⎠
⎝
de R.
−1
Portons R = Q Γ Q dans la dernière écriture du coût :
()
C (α K ) = C λˆ + α KT Q Γ Q −1 α K
−1
et en posant u K = Q αK
m −1
() ()
C (uK ) = C λˆ + uTK Γ uK = C λˆ + ∑ γ i (uKi ) 2
i =0
et :
( )
T
∇uK C (u K ) = 2 Γ uK = 2 γ 0 uK0 γ 1 u1K γ m−1 uKm−1 .
i
Avec u K : composante i de u à l’instant K .
ème
Cette écriture est intéressante car lorsqu’une seule des composantes de

∇u C ( λK ) sera non nulle, cette composante, normale à C ( λK ) , portera le
K
vecteur gradient. Ainsi cette composante formera l’un des axes principaux des
ellipses (ou des hyperellipses).
Par conséquent les vecteurs u K représentent les axes principaux des

hyperellipses.
Ces axes principaux représentent également les vecteurs propres de R . En effet,

quand on réduit une forme quadratique, ce qu’on réalise en diagonalisant, on établit
les axes principaux de l’hyperellipse en calculant les vecteurs propres de la matrice
R quand l’expression du coût C est sous la forme : Cte + α KT R α K .
REMARQUE.– Quand m=2 ou 3 la matrice orthogonale Q est associée à une rotation

2 "
3
dans R"ou R muni de la base des vecteurs propres de R .
REMARQUE 2.– ∇u
K
C (u K ) = Q −1 ∇α C (α K ) . K
Illustrons cette représentation par un exemple.
⎛3 1⎞
Soit R = ⎜ ⎟ ; p = (5 7)
T
et ( )
2
E DK = 10
⎝1 3⎠
⎛2 0⎞
; λˆ = (1 2 ) et C ( λˆ ) = 1 .
T
Γ=⎜ ⎟
⎝0 4⎠
Les vecteurs propres de R nous permettent de construire une matrice Q

unitaire.
1 ⎛ 1 1⎞
Soit Q = ⎜ ⎟
2 ⎝ −1 1 ⎠
et C (α K ) = C ( λˆ ) + α KT R α K .
REMARQUE.– Q a toujours la même forme et prend toujours les mêmes valeurs si

nous choisissons le vecteur unité comme vecteur de base. Ceci tient à la forme très
particulière de R (Toeplitz). Voir tracé dans les repères
(λ 0
)(
, λ1 , α 0 , α 1 ) et (u 0
)
, u1 ci-après.
Figure 6.11. Tracé de la fonction coût et des différents axes

([BLA 01] pour le tracé de l’ellipse)
Figure 6.12. Tracé des « repères importants »

−1
⎧ 0
⎪⎪u =
1
2
(α 0
− α1 )
Avec u K = Q αK soit ⎨
⎪u 1 =
⎪⎩
1
2
(α 0
+ α1 )
6.8. Stabilité et convergence
Etudions à présent la stabilité et la convergence de l’algorithme du gradient

déterministe.
En prenant l’écriture récursive du vecteur coefficients et en opérant une

translation :
α K = λK − λˆ .
Les écritures suivantes :
λK +1 = λK + µ ( −∇ λ C ( λK ) )
K
λˆ = R p
−1
∇ λ C ( λK ) = −2 ( p − RλK )
K
nous permettent d’écrire : α K +1 = ( I d − 2 µ R ) α K Id : matrice identité.
En écrivant R sous la forme :
R = Q Γ Q −1
et en prémultipliant α K +1 par Q −1 , nous obtenons :
Q −1α K +1 = uK +1 = ( I d − 2 µ Γ ) u K
i
(
et u K +1 = 1 − 2 µ γ
i
)u i
K
soit u K = ( I d − 2 µ Γ ) u0 .
K
Ainsi l’algorithme est stable et convergent si
( )
K
lim 1 − 2 µ γ
i
=0
K →∞
Si cette condition est obtenue alors : lim λK = λˆ

K →∞
1
avec 0 < µ<
γ max
L’illustration ci-après nous donne une idée de l’évolution du coût et de la

convergence de λK .
Figure 6.13. Tracé de plusieurs fonctions coût et des axes principaux « u »
RÉCAPITULATIF.– Nous avons montré que l’algorithme du LMS (ou gradient

stochastique), de par sa récursivité, résout l’équation de Wiener-Hopf en effectuant
les calculs de moyenne.
Cependant, il nécessite deux fois plus de calculs qu’un filtre transverse, car il lui
faut calculer, d’une part :
ε K = d K − λKT y K soit m multiplications et m additions.
et d’autre part :
% %
λK +1 = λK + 2µε K y K soit m+1 multiplications et m additions.
La complexité est donc de 2m.
On montre également que l’algorithme du LMS est le plus simple de tous ceux
qui optimisent le même critère des moindres carrés.
Par contre, il convergera plus lentement que l’algorithme dit des moindres carrés
exacts.
Même exemple de calcul que précédemment mais avec entrée bruitée, il s’agit de
construire un déphaseur avec annuleur de bruit.
∅ est uniformément répartie sur [ 0, 2π ] et ϕ , certain, illustre un déphasage

connu.
Figure 6.14. Schéma de principe du déphaseur (voir figure 6.10) avec entrée bruitée
bK est un bruit blanc centré et indépendant de l’entrée :

( )
E bK −i bK − j = σ 2 δ i , j
⎡⎛ ⎛ 2π ⎞ ⎞⎛ ⎛ 2π ⎞⎤
E (YK YK − n ) = E ⎢⎜ sin ⎜ K + ∅ ⎟ + bK ⎟⎜ sin ⎜ ( K − n ) + ∅ ⎞⎟ + bK −n ⎟ ⎥
⎣⎝ ⎝ N ⎠ ⎠⎝ ⎝ N ⎠ ⎠⎦
2π K
= 0,5cos + σ 2δ 0,n
N
⎡ ⎛ 2π K ⎞ ⎛ ⎛ 2π ( K − n ) ⎞ ⎞⎤
E ( DK YK − n ) = E ⎢sin ⎜ − ϕ + ∅ ⎟ ⎜ sin ⎜ + ∅ ⎟ + bK − n ⎟ ⎥
⎢⎣ ⎝ N ⎠ ⎜⎝ ⎝ N ⎠
⎟
⎠ ⎥⎦
⎛ 2π n ⎞
= cos ⎜ −ϕ ⎟
⎝ N ⎠
Matrice d’autocorrélation des données YK :
⎛ 0, 5 + σ 2 2π
⎞
0, 5 cos
⎜ N ⎟
R=⎜ ⎟
⎜⎜ 0, 5 cos 2π 0, 5 + σ
2 ⎟⎟
⎝ N ⎠
T
p = E ( DK YK
⎛
DK YK −1 ) = ⎜ cos ϕ
T ⎛ 2π − ϕ ⎞ ⎞
cos ⎜ ⎟⎟
⎝ ⎝ N ⎠⎠
λˆ = R
−1
p
⎛ 2 1 + 2σ 2 cos ϕ − ⎛ cos ϕ + cos ⎛ 4π − ϕ ⎞ ⎞ ⎞
1⎜
( ) ⎜
⎝
⎜
⎝N
⎟⎟⎟
⎠⎠
λˆ = ⎜ ⎟
∆⎜ 2π ⎛ 2π ⎞
⎜ −2 cos cos ϕ + 2 (1 + 2σ ) cos ⎜ − ϕ ⎟ ⎟
2 ⎟
⎝ N ⎝ N ⎠⎠
avec :
2π
( )
2
∆ = 1 + 2σ 2 − cos 2
N
et :
⎛ ⎛ 4π − 2ϕ ⎞ ⎞ − 1
(1 + 2σ )(1 + 4σ ) − 2σ
2 2 2
⎜ 2 cos ϕ + cos ⎜
⎝
2
⎝ N
⎟⎟
⎠⎠
C ( λˆ ) =
∆
avec :
2π
( ) ( )
C ( λK ) = 2 + 1 + 2σ 2 0, 5 (λ 0 ) 2 + (λ 1) 2 + λ 0 λ 1cos
N
− 2λ 0 cos ϕ
⎛ 2π ⎞
− 2λ 1cos ⎜ −ϕ ⎟
⎝ N ⎠
et C (α K ) = C ( λˆ ) + α KT R α K ou C ( u K ) = C (λˆ ) + u T
K Γ uK .
Voir tracé dans les repères (λ 0

)(
, λ1 , α 0 , α 1 ) et (u 0
)
, u1 ci-avant.
6.8.1. Convergence de l’algorithme du LMS
L’étude de la convergence de cet algorithme est beaucoup plus délicate que celle
du gradient déterministe, le lecteur pourra se référer à la bibliographie [BOL 87].
6.9. Exemple d’application de l’algorithme LMS
Rappel sur la modélisation d’un processus AR.

M
Ainsi BK = ∑ an X K −n .
n =0
En multipliant les 2 membres par X K −l et en prenant les espérances, il vient :
⎛ M ⎞
E ⎜ X K −( ∑ an X K − n ⎟ = E ( X K −( BK ) .
⎝ n =0 ⎠
Si ( > 0 alors X K −( ⊥ BK .
Car B K est un bruit blanc et seul BK est dépendant de X K .
Ainsi, en posant :
( )
E X j X m = rj − m
M
∑ an rn−( = 0 pour l > 0
n =0
M ⎛ M ⎞
et ∑ nn a r = E ( X B
K K ) = E ⎜ K ∑ an X K − n
B − ⎟ BK = σ B
2
n =0 ⎝ n =1 ⎠
En posant a0 = 1 et en utilisant l’écriture matricielle, il vient :
⎛ r0 r1 " rM ⎞ ⎛ 1 ⎞ ⎛ σ B2 ⎞ ← ( =0
⎜r ⎟⎜ ⎟ ⎜ ⎟
⎜1 r0 rM −1 a1
⎟⎜ ⎟ = ⎜0 ⎟ ⎫
⎪
⎜# ⎟ ⎜# ⎟ ⎜# ⎟ ⎬ ( ∈ [1, M ]
⎜⎜ r r ⎟⎜ ⎟ ⎜⎜ ⎟⎟ ⎪
⎝ M M −1 r0 ⎟⎠ ⎝ aM ⎠ ⎝0 ⎠ ⎭
Pour un processus AR d’ordre 1, soit le processus AR suivant :
X K = − a X K −1 + BK
où BK est un bruit blanc centré de variance σ B2 .
Le problème consiste à estimer la constante a par un filtre adaptatif.
Connaissant BK et X K −1 , le problème consiste à estimer X K (ou a ).
Les résultats précédents nous permettent d’écrire :
⎧⎪r0 + a1 r1 = σ B2
⎨
⎪⎩r1 + a1 r0 = 0
r1
d’où : a1 = a = − ,
r0
et (
σ B2 = σ X2 1 − a 2 )
Estimons cette valeur du paramètre « a » à l’aide d’un prédicteur et en utilisant
un algorithme LMS.
ε K = DK − Z K et DK = X K
ou ε K = DK − λ X K −1 YK = X K −1
avec ε K ⊥ ZK principe d’orthogonalité
( )
soit E X K − λˆ X K −1 X K −1 = 0
ou r1 = λˆr0
r
d’où λˆ = 1 = − a
r0
En utilisant directement la solution optimale de Wiener R λˆ = p avec R = r0

et p = r1 nous obtenons R λˆ = p.
r
Soit λˆ = 1
r0
() ( )
C λˆ = E DK2 − pT λˆ
nous donne :
()
C λˆ = σ X2 (1−a2 )
Ce coût minimum est aussi égal à σ B2 .
Vous trouverez ci-dessous un exemple traité avec Matlab.
Pour un processus AR d’ordre 2, nous aurions :
ε K = DK − λ 0 X K −1 − λ1 X K −2
( 0 1
)
et E X K − λˆ X K −1 − λˆ X K − 2 ( X K −1 X K −2 )T = (0 0)T
2
rr −rr r r −r
Ainsi : λˆ = 1 02 12 2 et λˆ = 2 20 12
0 1
r0 − r1 r0 − r1
ou en utilisant la solution de Wiener :
⎛r r1 ⎞
⎟ et p = ( r1 r2 ) avec R λ = p
R=⎜ 0
T ˆ
⎝ r1 r0 ⎠
Voir exemple ci-après avec le logiciel Matlab.
Exemples traités en utilisant le logiciel Matlab
Exemple d’un filtrage adaptatif (AR d’ordre 1)
L'objectif consiste à estimer le coefficient d'un prédicteur d'ordre 1 en utilisant

l'algorithme du LMS d'un filtre adaptatif. Le processus est construit par un modèle
AR du 1er ordre avec un bruit blanc, centré, gaussien et de variance (sigmav)^2. Le
problème revient donc à trouver le meilleur coefficient qui nous donne l'échantillon
à prédire.
%Prédicteur d'ordre 1
clear all;
close all;
N=500;
t=0:N;
a=-rand(1);%valeur à estimer
sigmav=0.1;%ecart type du bruit
r0=(sigmav)^2/(1-a^2);%E[u(k)^2]
r1=-a*r0;%représente P
wopt=r1/r0;%solution optimale de Wiener
Jmin=r0-r1*wopt;
mu=0.1;%paramètre de convergence
w(1)=0;
u(1)=0;
vk=sigmav*randn(size(t));
for k=1:length(t)-1;
u(k+1)=-a*u(k)+vk(k+1);
e(k+1)=u(k+1)-w(k)*u(k);
w(k+1)=w(k)+2*mu*u(k)*e(k+1);
E(k+1)=e(k+1)^2;%erreur carrée instantanée
J(k+1)=Jmin+(w(k)-wopt)'*r0*(w(k)-wopt);
end
%trace
subplot(3,1,1)
plot(t,w,'k',t,wopt,'k',t,a,'k');grid on
title('estimation de lambda, lambda opt. et "a"')
subplot(3,1,2)
plot(t,E,'k',t,J,'k',t,Jmin,'k');grid on
axis([0 N 0 max(E) ])
title('err.inst.,coût et cout min')
subplot(3,1,3)
plot(w,E,'k',w,J,'k');grid on
axis([0 1.2*wopt 0 max(J)])
title('err.inst.et coût en fonct. de lambda ')
Figure 6.15. Tracés des données importantes du processus AR d’ordre 1

Autre exemple (AR d’ordre 2)
L'objectif consiste à estimer le coefficient d'un prédicteur d'ordre 2 en utilisant

l'algorithme du gradient stochastique d'un filtre adaptatif. Le processus est construit
par un modèle AR du 2e ordre avec un bruit blanc, centré, gaussien et de variance
(sigmav)^2. Le problème revient donc à trouver les meilleurs coefficients qui nous
donnent l'échantillon à prédire.
Prédicteur d'ordre 2
clear all;
close all;
N=1000;
t=0:N;
a1=-0.75;%valeur à estimer
a2=0.9;%idem
sigmav=0.2;%ecart type du bruit
r0=((1+a2)*((sigmav)^2))/(1+a2-a1^2+a2*(a1^2)-a2^2-a2^3);%E[u(k)^2]
r1=(-a1*r0)/(1+a2);%représente P2
r2=(r0*(a1^2-a2^2-a2))/(1+a2);%représente P1
w1opt=(r0*r1-r1*r2)/(r0^2-r1^2);
w2opt=(r0*r2-r1^2)/(r0^2-r1^2);
wopt=[w1opt w2opt]';%solution optimale de Wiener
p=[r1 r2]';
Jmin=r0-p'*wopt ;
R=[r0 r1;r1 r0];
mu=0.2;%paramètre de convergence
w1(1)=0;w2(1)=0;w1(2)=0; w2(2)=0;
u(1)=0;u(2)=0;
vk=sigmav*randn(size(t));
for k=2:length(t)-1;
u(k+1)=-a1*u(k)-a2*u(k-1)+vk(k+1);
e(k+1)=u(k+1)-w1(k)*u(k)-w2(k)*u(k-1);
w1(k+1)=w1(k)+2*mu*u(k)*e(k+1);
w2(k+1)=w2(k)+2*mu*u(k-1)*e(k+1);
w(:,k)=[w1(k) w2(k)]';
J(k+1)=Jmin+(w(:,k)-wopt)'*R*(w(:,k)-wopt);
end
%tracé
w(:,N)
delta=a1^2-4*a2;
z1=(-a1+(delta^.5))/2;
z2=(-a1-(delta^.5))/2;
subplot(2,2,1)
plot(t,w1,'k',t,w1opt,'b',t,a1,'r');grid on
title('est. lambda0, lambda0.opt. et "a0"')
subplot(2,2,2)
plot(t,w2,'k',t,w2opt,'b',t,a2,'r');grid on
title('est.lambda1, lambda1.opt et "a1"')
subplot(2,2,3)
plot(t,J,'-',t,Jmin,'r');grid on
axis([0 N 0 max(J)])
title('Cout et Cout min')
subplot(2,2,4)
plot (w1,J,'b',w2,J,'r');grid on
title('évolution des coefficients fonct. du coût ')
Figure 6.16. Tracés des données importantes du processus AR d’ordre 2

6.10. Exercice du chapitre 6
Enoncé 6.1. [WID 85]
Un filtre adaptatif est caractérisé par
⎛2 1⎞
R=⎜ ⎟ matrice de corrélation des données,
⎝1 2⎠
p = ( 7 8 ) vecteur d’intercorrélation
T
( )
et E DK = 42
2
D K étant la sortie désirée.
1) Donner l’expression du coût C .
2) Calculer le vecteur optimal λ̂ .
3) Donner l’expression du coût minimum C (λ̂ ).
4) Calculer les valeurs propres de R.
5) Déterminer les vecteurs propres de telle sorte que la matrice Q de vecteurs
propres soit « normalisée » (c’est-à-dire QQ = I . ), ces vecteurs représentant les
T
axes principaux de la famille d’ellipses.

6) Donner les bornes de µ paramètre de convergence utilisé dans l’algorithme
du LMS.
Solution 6.1.
1) C = 2λ1 + 2λ2 + 2λ1λ2 − 14λ1 − 16λ2 + 42

2 2
2) λˆ = ( 2 3)
T
( )
3) C λˆ = 4
4) γ 1 = 1 γ2 = 3
2 (1 − 1) 2 (1 1)
T T
5) u1 = 1 u2 = 1
6) 0<µ <1 3
CHAPITRE 7
Le filtre de Kalman
7.1. Position du problème
Le but du filtrage que nous allons étudier consiste à « estimer au mieux » au sens
du critère classique des moindres carrés, un processus discret X K gouverné par une
équation de la forme :
X K +1 = A( K ) X K + C ( K ) N K (équation d’état).
Ce processus (physique, biologique, etc.) appelé processus d’état est celui qui
intéresse l’utilisateur.
Il représente par exemple la position, la vitesse et l’accélération d’un mobile.
Directement, ce processus est inaccessible et il est étudié par l’intermédiaire d’un

processus YK gouverné par une équation de la forme :
YK = H ( K ) X K + G ( K ) WK (équation d’observation)
YK est appelé processus d’observations.
N K et WK sont respectivement les bruits de système et de mesures que nous

qualifierons précisément par la suite. Le lecteur pourra retrouver les résultats des
processus discrets avec la bibliographie [BER 98, GIM 82].
Le filtre de Kalman généralise par sa conception, le filtre optimal des systèmes

non stationnaires.
Il est aussi récursif : la prédite Xˆ K +1|K est obtenue à partir de la filtrée à
l’instant précédent Xˆ K | K et la filtrée Xˆ K +1|K +1 , à partir de sa prédite Xˆ K +1|K et

de la mesure du processus YK +1 à l’instant ou l’on fait son estimation.
Par ailleurs, si le système observable est connu et linéaire, l’objectif consiste, à

partir des mesures du système, à déterminer la meilleure estimée possible au sens du
critère ci-dessus précisé.
Si le système observable est connu mais non linéaire une solution approchée peut
être donnée en opérant une linéarisation des équations d’état et d’observations
autour de la dernière valeur estimée. Dans ce cas nous donnerons les équations de
l’algorithme de Kalman en fin de chapitre sans les démontrer. Le lecteur pourra
trouver des compléments dans la bibliographie [GIM 82, RAD 84].
Si le système n’est pas parfaitement connu et linéaire le problème est plus

compliqué car il faut faire apparaître et estimer dans le vecteur d’état des
composantes inhérentes de ce système. Ce cas ne sera pas étudié dans ce chapitre.
De la même, manière, nous n’aborderons pas le cas où les bruits sont colorés ou
celui dans lequel il y a une corrélation entre bruit de système et bruit de mesure
[GIM 82, RAD 84].
Préliminaires dans le cas scalaire
Nous avons démontré que la meilleure estimée d’un processus, à partir d’une
fonction g d’observation, c’est-à-dire Xˆ = gˆ (Y1 ,..., YK ) représentée par la
projection orthogonale de X sur un espace de Hilbert que nous avons défini est
l’espérance conditionnelle de la grandeur X , sachant l’ensemble des variables
aléatoires d’observations Y1...YK c’est-à-dire :
Xˆ = gˆ (Y1 , ..., YK ) = Pr oj X = Ε ( X Y1 ,..., YK )

H KY
Toutefois, si le vecteur ( X , Y1 ,..., YK ) est gaussien, alors nous avons vu que
l’estimée X̂ de X est une fonction affine des vecteurs Y j .

Le filtre de Kalman 227
K
Xˆ = λˆ 0 + ∑ λˆ j Y j
j =1
Afin d’aborder le filtrage de Kalman d’une manière simple, nous allons

commencer par aborder le problème de l’estimation linéaire dans le cas scalaire
appliqué au prédicteur linéaire. La forme de l’estimation récursive obtenue nous
permettra alors de mieux cerner le cas multivarié.
Considérons un ensemble de variables aléatoires Y1 , Y2 ,..., Y j ..., YK −1
Y j : variable observée à l’instant j avec Y0 = 0 par convention.
Rappelons que nous notons par H KY-1 l’espace vectoriel réel engendré par ces
variables aléatoires, c’est-à-dire :
H KY-1 = { K −1
∑ λ j Yj λ j ∈ !
j =1
}
Exemple de l’estimation linéaire [HAY 91]
La meilleure estimation linéaire en m.q. d’une variable aléatoire YK , à partir

d’observations constituant H KY-1 peut se faire par le prédicteur linéaire suivant :
Figure 7.1. Schéma de principe de l’estimateur linéaire

L’erreur de prédiction s’écrit alors :
I K = YK − YˆK |K −1 (qu’on pourrait rapprocher de εK dans le filtre adaptatif)

pour un filtre prédicteur d’ordre K −1 et se construit facilement par le montage ci-
dessus.
Les sorties du filtre s’interprète comme : la meilleure estimée à l’instant K ,

connaissant les données du processus Y1 ,..., YK −1 .
Ainsi nous pouvons interpréter yˆ K |K −1, réalisation de YˆK |K −1 comme la sortie

d’un prédicteur d’ordre K − 1 dont l’entrée serait composée des observations
y1 , y2 ,..., yK −1 : mesures des Y j .
Le principe de l’orthogonalité nous montre que cette « erreur » I K est

orthogonale à H KY-1 et peut être interprétée comme une information apportée par
YK , d’où le nom « d’innovation ». Aussi nous appellerons cette erreur de
prédiction : l’innovation.
7.2. Approche de l’estimation
7.2.1. Cas scalaire
Il est clair que nous pouvons donner une estimée d’une grandeur d’un processus
à partir d’observations passées de ce processus.
Dans l’expression de l’innovation :
K −1
I K = YK − ∑ λî YK −i
i =1
YK représente la grandeur à estimer (voir : prédicteur)
K −1
et ∑ λˆ i YK −i représente l’estimation.
i =1
= Pr oj Y YK = YˆK |K −1 et
H K-1
I K = YK − YˆK |K −1
De la même manière, si nous appelons :
Xˆ K K = Pr oj XK
H KY
l’estimée d’un processus à l’instant K , à partir des mesures y1 ,..., y K , ... du

processus Y1 ,..., YK ,... , nous pouvons écrire :
K
Xˆ K K = ∑ b j Y j estimée de X K .
j =1
Ecrivons l’innovation aux instants 1, 2,…, K :
K −1
I K = YK − ∑ λiK −1 YK −i avec λiK −1 : coefficients du prédicteur d’ordre K −1
i =1
I1 = Y1 avec Yˆ1/ 0 = 0
I 2 = Y2 − λ11Y1
I 3 = Y3 − λ12 Y2 − λ22 Y1
!
I K = YK − λ1K −1YK −1 − ... − λKK−−11Y1
Cette écriture peut se mettre sous la forme : I = M Y
avec M , matrice triangulaire inversible car det M = 1 .
−1
Ainsi Y = M I.
En conséquence, chaque vecteur I peut s’écrire en fonction des vecteurs
Y = (Y1 ,..., YK ) et inversement, (H KY = H KI ) .

T
Donc Xˆ K K = b′.Y = b′M I

−1
ou : b ' = (b1′ ,..., bK′ ) vecteur de dimension K

T
I = ( I1 ,..., I K )T vecteur Innovation.
Il est clair que l’égalité Xˆ K K = b′M I peut aussi se mettre sous la forme :
−1
K
Xˆ K K = ∑ d j I j
j =1
Ε( XK I j )
Montrons maintenant que : d j = j ∈ [1, K ]
Ε(I j I j )
Preuve :
Nous savons que : X K − Xˆ K |K ∈ H K

Y,⊥
On a : X K − Xˆ K |K ⊥ Y j ∀j ∈ [1, K ] il vient aussi :
Yˆj| j −1 ∈ H jY−1 ⊂ H KY , X K − Xˆ K |K ⊥ Yˆj| j −1
Donc X K − Xˆ K | K ⊥ Y j − Yˆj| j −1 = I j ∀j ∈ [1, K ]
( )
C’est-à-dire : E X K I j = E Xˆ K | K I j ( )
K
( )
D’où finalement : E X K I j = E Xˆ K |K I j = ( ) ∑d E (I I )
i =1
i i j
et puisque I i ⊥ I j si i ≠ j il vient : d j =
( )
E XKI j
E (I jI j )
K
Exploitons l’écriture de la filtrée : Xˆ K K = ∑ d j I j
j =1
K −1
et Xˆ K K = ∑ d j I j + dK IK .
j =1
D’après nos premiers résultats, la somme des K −1 termes représente également

une estimation et :
Xˆ K K = Xˆ K −1 K −1 + d K I K .
Ce qui montre que l’estimée, à l’instant K s’écrit en fonction de l’estimée à

l’instant K −1 et d’un terme correctif dépendant de l’instant K .
Ce procédé d’estimation récursif est le fondement du filtrage de Kalman.
7.2.2. Cas multivarié
Nous allons à présent considérer des grandeurs vectorielles vues au chapitre 4,

c’est-à-dire :
( )
n
X K : multivecteur d’ordre n ∈ L2
( )
m
YK : multivecteur d’ordre m ∈ L2
( )
m
I K : multivecteur d’ordre m ∈ L2
Relation entre les Y j et les I j :
I K = YK − H ( K ) Xˆ K K −1
K −1
ou I K = YK − H ( K ) ∑ Λ
ˆ Y
j j
j =1
Réciproquement :
En écrivant les YK en fonction des I K , il vient avec X̂ 1|0 = 0.
Y1 = I1
ˆ I
Y2 = I 2 + H ( 2 ) Λ 1 1
Y3 = I 3 + H ( 3) Λ1 I1 + H ( 3) Λ
ˆ ˆ I + H ( 3) Λ
2 2
ˆ H ( 2) Λ
2
ˆ I
1 1
!
Ainsi YK s’écrit en fonction des I K , I K −1 ,..., I1 .
7.3. Filtrage de Kalman
Approche vectorielle ou multivariée soit :

– X K : multivecteur d’état ( n ×1)
– xK : vecteur d’état des réalisations
– YK : multivecteur d’observations ( m × 1)
– y K : vecteur d’observations des réalisations
7.3.1. Equation d’état
X K +1 = A ( K ) X K + C ( K ) N K
avec A ( K ) = matrice d’état ( n × n)
et N K = vecteur bruit de système (l × 1)
que nous choisirons centré, blanc et de matrice de corrélation.

( )
E N K N Tj = δ K , j QK : ( "×" )
C ( K ) : Matrice déterministe (n × ")
7.3.2. Equation d’observations
YK = H ( K ) X K + G ( K ) WK
avec H ( K ) : matrice de mesures ou d’observations ( m × n ) .
WK : vecteur bruit de mesures ou d’observations ( p × 1) que nous choisissons,

comme N K , centré, blanc et de matrice de corrélation.
( )
E WK W jT = δ K , j RK ( p × p)
G ( K ) : matrice déterministe (m × p )
Les bruits N K et WK sont indépendants, et , comme ils sont centrés :
( )
E N K W jT = 0 ∀K et j .
Nous supposerons, par la suite , que WK ⊥ X 0 .
Par itération de l’équation d’état, nous pouvons écrire :

K −1
X K = Φ ( K ,0 ) X 0 + ∑ Φ ( K ,i +1) Ni avec Φ ( K , j ) : matrice de transition.
i =1
Il vient par cette équation de transition, en multipliant les 2 membres par W j
X K ⊥ Wj K, j > 0.
En utilisant l’équation d’observations :

Y j ⊥ WK 0 ≤ j ≤ K −1
et Yj ⊥ NK 0≤ j≤K
Le problème de l’estimation peut maintenant s’énoncer simplement de la façon

suivante.
Connaissant A( K ) la matrice d’état du système, H ( K ) la matrice de mesures

et les réalisations yi de Yi i ∈ [1,K ] ; obtenir les réalisations x j des X j .
Si 1< j<K on dira que l’estimation est un lissage.
Si j = K on dira que l’estimation est un filtrage.
Si j > K on dira que l’estimation est une prédiction.
REMARQUE.– Les matrices C ( K ) et G ( K ) ne jouent pas un rôle essentiel dans la

mesure où les puissances de bruit apparaissent dans les éléments des matrices
QK et RK respectivement. Cependant le lecteur pourra retrouver les analogies avec
les notations utilisées dans « Processus stochastiques et filtrage de Kalman » des
mêmes auteurs qui traite du cas continu.
7.3.3. Processus d’innovation
Le processus d’innovation a déjà été défini comme :
I K = YK − H ( K ) Pr oj X K = YK − H ( K ) Xˆ K |K −1 : ( m×1)
H KY −1
⎪⎧ K −1
⎪⎫
et : H KY-1 = ⎨ ∑ Λ jY j Λj matrice n × m ⎬⎪ .
⎪ j =0
⎩ ⎭
Par ce choix des Λ j , l’espace H KY−1 est adapté à l’ordre des multivecteurs
d’état X j et Pr oj Y XK = Xˆ K |K −1 a même ordre que X K .

HK −1
Ainsi I K représente l’apport d’informations entre les instants K − 1 et K .

Rappel des propriétés précédemment établies :
I K ⊥ Y j ⎫⎪
⎬ pour j ∈ [1, K -1]
I K ⊥ I j ⎪⎭
Nous reviendrons sur l’innovation pour donner l’importance de sons sens

physique.
7.3.4. Matrice de covariance du processus d’innovation
Entre deux mesures, la dynamique du système fait évoluer les grandeurs d’état.
Aussi la prédite du vecteur d’état à l’instant K , connaissant les mesures (Y1...YK −1 )
c’est-à-dire Xˆ K |K −1 s’écrit en fonction de la filtrée à l’instant K − 1.
Xˆ K |K −1 = E ( X K | Y1 ,… , YK −1 ) = Pr oj XK
HY
K −1
= Pr oj
HY
( A( K − 1) X K −1 + C ( K − 1) N K −1 | Y1 ,… , YK −1 )
K −1
= A( K − 1) Xˆ K −1|K −1 + 0
Xˆ = A ( K −1) Xˆ
K K −1 K −1 K −1
Seule l’information provenant d’une nouvelle mesure à l’instant K permettra de

réduire l’erreur d’estimation à ce même instant. Ainsi H ( K ) représentant en
quelque sorte, l’appareil de mesures où pour le moins son effet :
YK − H ( K ) Xˆ
K K −1
représentera l’apport d’information entre 2 instants d’observations. C’est pour cette

raison que cette information s’appelle l’innovation.
Nous remarquons, par ailleurs que I K et YK ont mêmes ordres.
En exploitant l’équation d’observations nous en déduisons :

⎛ ⎞
I K = H ( K ) ⎜ X K − Xˆ + G ( K ) WK
⎝ K K −1 ⎟
⎠
et I K = H ( K ) X$ + G ( K ) WK
K K −1
où X$ K |K −1 = X K − Xˆ K | K −1 est appelée erreur de prédiction.
La matrice de covariance de l’innovation s’écrit finalement :
T
⎛ ⎞⎛ ⎞
Cov I K = E ( I K I KT ) = E ⎜ H ( K ) X$
K K −1
+ G ( K ) WK ⎟ ⎜ H ( K ) X$
K K −1
+ G ( K ) WK ⎟
⎝ ⎠⎝ ⎠
c'est-à-dire ou Cov I K = H ( K ) PK K −1 H T ( K ) + G ( K ) RK GT ( K )
⎛ ⎞
où P = Ε ⎜ X$ X$ T ⎟ est appelée matrice de covariance de l’erreur de
K K −1 ⎝ K K −1 K K −1 ⎠
prédiction.
Une formule de récurrence sur les matrices P sera développée dans

K K −1
l’annexe A.
7.3.5. Estimation
Dans le cas scalaire, nous avions établi une relation entre l’estimée d’une
grandeur X K et les innovations I K . Nous pouvons, bien évidemment étendre cette
approche au cas des processus multivariés, c’est-à-dire que l’on peut écrire :
K
Xˆ = ∑ d j (i ) I j
iK
j =1
d j ( i ) est une matrice ( n x m )
Déterminons les matrices d j ( i ) :

(
Puisque E X$ i|K I j
T
) = E (( X i ) )
− Xˆ i|K I Tj = 0 ∀j ∈ [1, K ]
(
on a : E X i I j
T
) = E ( Xˆ T
i| K I j ) et vu la forme de Xˆ i| K .
⎛ K ⎞
On a encore E X i I j ( T
) = E ⎜⎜ ∑ d p (i ) I I T
p j ⎟⎟
.
⎝ p =1 ⎠
Soit, puisque I j ⊥ I p ∀j ≠ p et j , p ∈ [1, K ]
( ) (
E X i I Tj = d j ( i ) E I j I Tj = d j ( i ) CovI j . )
( ) ( CovI )
−1
Finalement : d j ( i ) = E X i I j
T
j .
Nous obtenons ainsi :
K
( ) ( Cov I )
−1
Xˆ i K = ∑ Ε X i I Tj j Ij
j =1
K −1
( ) ( Cov I )
−1
= ∑ Ε X i I Tj j Ij
j =1
(
+ Ε X i I KT ) ( Cov I K )−1 I K
Nous allons maintenant donner les équations de Kalman. Appliquons l’égalité
précédente à la filtrée Xˆ K +1 K +1 , il vient :
K +1
( ) ( Cov I )
−1
Xˆ K +1 K +1 = ∑ Ε X K +1 I Tj j Ij
j =1
K
( ) ( Cov I )
−1
= ∑ Ε X K +1 I Tj j Ij
j =1
(
+ Ε X K +1 I KT +1 ( Cov I K +1 ) ) −1
I K +1
L’équation d’état nous rappelle que :
X K +1 = Α ( K ) X K + C ( K ) N K
et nous savons que N K ⊥ Ij .
Donc :
( ) (
Ε X K +1 I Tj = Α ( K ) Ε X K I Tj . )
L’estimée de X K +1 connaissant la mesure à cet instant K+1 s’écrit alors :
K
( ) ( Cov I )
−1
Xˆ K +1 K +1 = Α ( K ) ∑ Ε X K I Tj j Ij
j =1
( )
+ Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1
−1
Le terme sous le signe sigma (somme) peut s’écrire Xˆ K K
Exploitons l’écriture :
I K +1 = H ( K +1) X$ K +1 K + G ( K +1) WK +1 .
Ce qui nous donne :
( ) −1
Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1 .
qui s’écrit encore :
⎛
( ) ⎞
T
Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε ⎜ X K +1 H ( K +1) X$ K +1 K + G ( K +1) WK +1 ⎟
⎝ ⎠
. ( Cov I K +1 ) I K +1
−1
Par ailleurs nous avons montré que la meilleure estimation à un instant donné,
connaissant les mesures du passé, que nous écrivons Xˆ K +1 K , est égale à la
projection de X K +1 sur H KY soit :
Xˆ K +1 K = ProjH Y X K +1 = Pr oj
K HY
( Α (K ) X K + C (K ) NK )
K
Xˆ K +1 K = Pr oj
HY
( Α (K ) X K + C (K ) NK )
K
et comme : Y j ⊥ NK ∀ j ∈[1, K ]
il vient Xˆ K +1 K = Α ( K ) Xˆ K K ; Α ( K ) carrée
On peut considérer cette équation comme celle décrivant la dynamique du

système, indépendemment des mesures et comme l’une des équations du filtre de
Kalman.
Comme en outre X K ⊥ Wj K , j > 0 : il vient pour la filtrée :
( ) −1
Xˆ K +1 K +1 = Xˆ K +1 K + Ε X K +1 X$ KT +1 K H (TK +1) ( Cov I K +1 ) I K +1
Comme :
Xˆ K +1 K ⊥ X$ K +1 K
alors :
( ( )
Xˆ K +1 K +1 = Xˆ K +1 K + E X K +1 − Xˆ K +1 K X$ KT +1 K H T ( K +1) )
. ( Cov I K +1 ) I K +1
−1
Soit :
−1
Xˆ K +1 K +1 = Xˆ K +1 K + PK +1 K H T ( K +1) ( Cov I K +1 ) I K +1
DÉFINITION.– On appelle Gain de Kalman la fonction K définie ( ici à l’instant K+1)

par :
−1
K ( K +1) = PK +1 K H T ( K +1) ( Cov I K +1 )
avec :
Cov I K +1 = H ( K + 1) PK +1 K H T ( K + 1) + G ( K +1) RK +1 GT ( K +1)
soit en reportant dans l’expression de K ( K + 1) nous obtenons :
( )
−1
K ( K+1) = PK+1K HT ( K+1) H ( K+1) PK+1K H(TK+1) + G( K+1) RK+1GT ( K+1)
Nous remarquons que ce calcul ne nécessite pas la connaissance directe de la

mesure du processus YK .
Cette écriture du gain, intervient, bien évidemment, dans l’algorithme du filtre de

Kalman et nous pouvons écrire :
(
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K )
Cette expression de la meilleure filtrée représente une autre équation du filtre de
Kalman.
Nous remarquons que « l’effet » du gain est essentiel.
En effet, si la mesure est très bruitée, ce qui signifie que les éléments de la
matrice RK sont importants, alors le gain sera relativement faible, et l’impact de
cette mesure sera minimisé pour le calcul de la filtrée.
En revanche, si la mesure est peu bruitée, nous aurons l’effet inverse ; le gain
sera important et son effet sur la filtrée sera appréciable.
Nous allons à présent « apprécier » cette filtrée en calculant l’erreur que nous
commettons, c’est-à-dire en calculant la matrice de covariance de l’erreur de filtrage.
Rappelons que Xˆ K +1 K +1 est la meilleure des filtrées, au sens où elle minimise

l’application :
= tr E ⎡( X K +1 − Z )( X K +1 − Z ) ⎤
2 T
Z → tr X K +1 − Z
⎣ ⎦
Y
∈ H K+1 ∈!
Le minimum est donc :
( )
2
tr X K +1 − Xˆ K +1 K +1 = tr E X$ K +1 K +1 X$ TK +1 K +1
(
NOTATION.– dans la suite la matrice E X$ K +1 K +1 X$ K +1 K +1
T
) est notée P K +1 K +1
et est appelée matrice de covariance d’erreur de filtrage.
Nous donnons maintenant une relation simple liant les matrices
P et P
K +1 K +1 K +1 K
On remarque que, par utilisation de l’équation de la filtrée d’abord et de

l’équation d’état ensuite :
X$ K +1|K +1 = X K +1 − Xˆ K +1 K +1
(
= X K +1 − Xˆ K +1 K − K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K )
= X K +1 − Xˆ K +1 K − K ( K +1)
(H ( K +1) X K +1 + G ( K +1) WK +1 − H ( K +1) Xˆ K +1 K )

= ( I d − K ( K +1) H ( K +1) ) X$ K +1|K − K ( K +1) G ( K +1) WK +1
où I d est la matrice identité.

En portant cette expression de X$ K +1|K +1 dans P et en utilisant le fait

K +1 K +1
que : X$ K +1| K ⊥ WK +1 on a :
= ( I d − K ( K +1) H ( K +1) ) P ( I d − K ( K +1) H ( K +1) ) +

T
P
K +1 K +1 K +1 K
K ( K +1) G ( K +1) R ( K +1) GT ( K +1) K T ( K +1)
Expression qui, puisque :
Cov I K +1 = G ( K +1) RK +1 GT ( K +1) + H ( K + 1) PK +1 K H T ( K + 1)
peut s’écrire :
(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) ( CovI K +1 )
−1
)
( CovI K +1 ) ( K ( K + 1) − PK +1 K H (TK +1) ( CovI K +1 ) )
−1 T
( −1
+ I d − PK +1 K H T ( K +1) ( CovI K +1 ) H ( K +1) PK +1 K )
−1
Mais on a vu que : K ( K +1) = PK +1 K H ( K +1) ( Cov I K +1 ) .
T
Donc le premier terme du deuxième membre de l’expression est nul et notre

relation cherchée est finalement :
(
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K)
Cette « mise à jour » de la matrice de covariance par itération est une autre
équation du filtre de Kalman.
Autre approche pour calculer ce minimum [RAD 84].
On remarque que l’avant dernière écriture de PK +1|K +1 peut se mettre sous la

forme :
(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) J −1 ( K +1) )
( )
T
J ( K +1) K ( K + 1) − PK +1 K H (TK +1) J (−K1 +1)
( )
+ I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K
avec :
J ( K +1) = H ( K +1) PK +1 K H T ( K +1) + G ( K +1) RK +1 GT ( K +1) = Cov I K +1
Seul le 1er terme de PK +1 K +1 dépend de K ( K +1) et est de la forme
M J M T avec J symétrique.
Ainsi cette forme est de trace positive ou nulle et :
(
PK +1 K +1 = M J M T + I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K)
Le minimum de la trace sera donc atteint quand M sera nul soit :
K ( K +1) = PK +1 K H T ( K +1) J −1 ( K +1) où :
( )
−1
K ( K +1) = PK +1 K H T ( K +1) H ( K +1) PK +1 K H (TK +1) + G ( K +1) RK +1G T ( K +1)
résultat déjà obtenu !
et dans ces conditions quand :
( )
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K
on obtient le minimum de la tr PK +1 K +1 .
Il est important de noter que K , le gain de Kalman et la matrice de covariance

de l’erreur d’estimation sont indépendants des grandeurs YK .
Nous pouvons aussi écrire la meilleure « prédite », à savoir Xˆ K +1 K en fonction

de la précédente prédite :
(
Soit : Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 )
Comme pour la « meilleure » filtrée, la meilleur prédite s’écrit en fonction de
l’estimée prédite précédente pondérée du gain et de l’innovation apportée par la
mesure YK . Cette équation de Kalman est utilisée non pas en filtrage mais en
prédiction. Il nous faut à présent établir une relation sur l’évolution de la matrice de
covariance des erreurs d’estimation.
7.3.6. Equation de Riccati
Ecrivons une relation d’évolution entre la matrice de covariance de l’erreur de

filtrage et la matrice de covariance de l’erreur de prédiction :
(
PK K −1 = Ε X$ K K −1 X$ KT K −1 )
ou par incrémentation :
avec :
(
PK +1 K = Ε X$ K +1 K X$ KT +1 K )
X$ K +1 K = X K +1 − Xˆ K +1 K
Par ailleurs nous savons que :
Xˆ K +1 K = Α ( K ) Xˆ K K −1 + A ( K ) K ( K ) I K
donnant la prédite à l’instant K +1 et X K +1 = Α ( K ) X K + C ( K ) N K

ainsi que I K = YK − H ( K ) Xˆ K K −1 .
La combinaison de ces écritures nous donne :
( ) ( )
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 + C ( K ) N K
Mais YK = H ( K ) X K + G ( K ) WK .
Donc :
( ) (
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) H ( K ) X K − Xˆ K K −1 − )
Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K
X$ K +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) X$ K K −1 −
Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K
Nous pouvons à présent écrire PK +1 K en remarquant que :
X$ K K −1 ⊥ NK
et X$ K K −1 ⊥ WK
REMARQUE.– Attention X$ K +1/ K n’est pas orthogonale à WK
Donc :
PK +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T
+ C ( K ) QK C T ( K ) + Α ( K ) K ( K ) G ( K ) RK GT ( K ) K T ( K ) ΑT ( K )
Cette expression de la matrice de covariance de l’erreur de prédiction peut se

mettre sous la forme :
PK +1 K = Α ( K ) PK K ΑT ( K ) + C ( K ) QK C T ( K ) .
Cette égalité indépendante de YK porte le nom d’équation de Riccati.
avec PK K = ( I d − K ( K ) H ( K ) ) PK K −1
qui représente la matrice de covariance de l’erreur de filtrage, également
indépendante de YK . Voir Annexe A pour détails de calcul.
7.3.7. Algorithme et résumé
L’algorithme se présente donc sous la forme suivante , avec les conditions

initiales :
P0 et X̂ 0|0 données ainsi que les matrices :
Α ( K ) , QK , H ( K ) , RK , C ( K ) et G ( K )
1) Phase de calcul indépendante des YK .
En effet, à partir des conditions initiales, on s’aperçoit que la récursivité qui

s’opère sur le gain K ( K + 1) et sur la matrice de covariance des erreurs de
prédiction et de filtrage PK +1 K et PK +1 K +1 ne nécessite pas la connaissance du
processus d’observations. Ainsi le calcul de ces matrices peut se faire en amont de
tout calcul itératif. Quant aux observations, elles interviennent pour le calcul de
l’innovation et de la filtrée ou de la prédite.
PK+1 K = Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )
( )
−1
K ( K+1) = PK+1 K HT ( K+1) H ( K+1) PK+1 K HT ( K +1) + G ( K+1) RK+1 GT ( K+1)
PK+1K+1 = ( Id − K ( K+1) H ( K+1) ) PK+1 K
Xˆ K+1K = Α( K ) Xˆ K K
( )
T T −1
ou K ( K + 1) = PK +1 K +1 H ( K + 1) G ( K +1) RK +1G ( K +1)
T
si G ( K +1) RK +1G ( K +1) est inversible.
2) Phase de calcul tenant compte des réalisations y K du processus YK .
I K +1 = YK +1 − H ( K + 1) Xˆ K +1 K
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K + 1) I K +1
C’est par une nouvelle mesure que l’innovation calculée permettra, pondérée par
le gain au même instant, de connaître la meilleure filtrée.
Figure 7.2. Schéma de principe du filtre de Kalman
Des compléments importants d’informations peuvent être obtenues dans

[HAY 91].
REMARQUE.– Si nous avions conçu un prédicteur de Kalman, nous aurions obtenu

l’écriture de la prédite.
(
Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1
%&&&'&&&(
)
IK
REMARQUE.– Lorsque les équations d’état et d’observations ne sont plus linéaires,

une solution approchée existe et les résultats non démontrés sont donnés ci-après. Le
filtre prend alors le nom de Filtre de Kalman étendu.
7.3.8. Equations du filtre de Kalman dans le cas non linéaire
Si :
X K +1 = A ( X K , K ) + C ( K ) N K
et YK = H ( X K , K ) + G ( K ) WK
Les opérateurs A ( X K , K ) et H ( X K , K ) ne sont plus linéaires par rapport à

la 1re variable X K .
Alors :
° °
PK +1 K = Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )
−1
⎛°
° ° ⎞
K K +1 = PK +1 K Η K +1 ⎜ Η K +1 PK +1 K ΗT ( K +1) + G ( K +1) R ( K +1) GT ( K +1) ⎟
( ) ( ) T
( )
⎜ ⎟
⎝ ⎠
⎛ ° ⎞
PK +1 K +1 = ⎜ Id − K ( K +1) Η ( K +1) ⎟ PK +1 K
⎝ ⎠
) ⎛ ⎞
X K +1 K = A ⎜ Xˆ , K ⎟
⎝ K K ⎠
IK +1 = Y − H Xˆ
K +1 (
, K +1K +1 K )
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) I K +1
° ∂A ( X K , K )
avec Α (K ) =
∂X K X = Xˆ K K
K
° ∂H ( X K +1, K +1)
et Η ( K +1) =
∂X K +1 X = Xˆ K +1 K
K +1
REMARQUE.– On utilise dans ce cas des dérivées de matrices, c’est-à-dire des

matrices formées par les dérivées des coefficients.
Enoncé 7.1.
Soit l’équation d’état X K +1 = A X K + N K .
où la matrice d’état A est la matrice « identité » de dimension 2 et N K le bruit de

système dont la matrice de covariance s’écrit Q = σ I d ( I d : matrice identité).
2
Le système est observé par l’équation scalaire :
YK = X 1K + X K2 + WK où X 1K et X K2 sont les composantes du vecteur X K

où WK le bruit de mesure de variance R = σ 12 .
P0|0 = Id et Xˆ 0|0 = 0 sont les conditions initiales.
1) Donner l’écriture du gain de Kalman K (1) à l’instant « 1 » en fonction de

σ 2
et σ 12 .
2) Donner l’estimée de X̂ 1|1 de X 1 à l’instant « 1 » en fonction de K (1) et de

la 1re mesure de Y1 .
Solution 7.1.
1+σ 2 ⎛1⎞
1) K (1) = ⎜ ⎟
2 + 2σ 2 + σ 12 ⎝ 1 ⎠
2) Xˆ 1|1 = K (1)Y1
Enoncé 7.2.
On considère le mouvement d’une particule sur une droite.
x1 ( t ) représente la position de la particule et x2 ( t ) sa vitesse.
t
x1 ( t ) = ∫ x2 (τ ) dτ + x1 ( 0 )
0
En dérivant cette expression et en posant :

dx1 ( t )
x2 (t ) = = approximativement = x1 ( K +1) − x1 ( K ) .
dt
On suppose que la vitesse peut être représentée par :
X K2 = X K2 −1 + N K −1 .
Avec N K bruit stationnaire gaussien centré de variance 1.
La position est mesurée par y K , réalisation du processus YK . Cette mesure

ajoute un bruit stationnaire gaussien centré de variance 1 :
Y ( K ) = H ( K ) X ( K ) + WK
On suppose que RK matrice de covariance (de dimension 1) du bruit de mesure

égale à 1.
1) Donner les matrices A, Q (matrice de covariance de bruit de système) et H .
2) En prenant comme conditions initiales Xˆ 0 = Xˆ 0|0 = 0 P0|0 = I d

matrice identité, donner X̂ 1|1 la 1re estimation du vecteur d’état.
Solution 7.2.
⎛ 1 1⎞ ⎛0 0⎞
1) A = ⎜ ⎟ ; Q=⎜ ⎟ ; H = (1 0 )
⎝ 0 1⎠ ⎝0 1⎠
⎛ 2 3⎞
2) X̂ 1|1 = ⎜ ⎟ Y1
⎝1 3⎠
Enoncé 7.3. [RAD 84]
On veut estimer deux positions de cibles par une seule mesure. Ces positions
X 1K 2
et X K forment le vecteur d’état :
( )
T
X K = X 1K X K2
Le bruit de système est nul.

La mesure du processus Y est bruitée par W de valeur moyenne nulle et de

variance R porte sur la somme des positions :
YK = X 1K + X K2 + WK
Afin de simplifier les calculs, on se placera dans le cas d’une cible immobile :
X K +1 = X K = X .
Les conditions initiales sont :
( )
– P0|0 = C ov X$ , X$ = Id matrice identité ;
– R = 0,1 ;
– y = 2, 9 (mesure) et Xˆ 0|0 = ( 0 0) .
T
1) Donner la matrice d’état A , et d’observation H .
2) Donner le gain de Kalman K .
3) Donner la matrice de covariance d’erreur d’estimation.
2
4) Donner l’estimée au sens du minimum dans L du vecteur d’état X K .
5) Si x = xK = (1 2 ) , donner l’erreur d’estimation

T
x$ = x$K |K = xK − xˆ K |K .
6) Comparer les erreurs d’estimations aux variances de X$ K et X$ K et

1 2
concluez.
Solutions 7.3.
1) A = I d H = (1 1)
2) K = (1 2,1 1 2,1)
T
⎛ 1,1 2,1 −1
2,1 ⎞
3) P1|1 = ⎜ ⎟⎟
⎜ −1 1,1
⎝ 2,1 2,1 ⎠
4) xˆ1|1 = ( 2, 9 2,1 2, 9 2,1)

T
( )
T
5) x$ K = x$ K
1
x$ K2 = ( −0, 38 − 0, 62 )T
6) var X$ K = var X$ K = 0, 52
1 2
Enoncé 7.4.
Soit l’équation d’état de dimension 1 (le processus d’état est un processus

scalaire) :
X K +1 = X K .
L’état est observé par 2 mesures :
YK = ⎛⎜ YK2 ⎞⎟ bruitées avec WK = ⎛⎜ WK2 ⎞⎟

Y1 W1
⎝ K⎠ ⎝ K⎠
Le bruit de mesure est caractérisé par sa matrice de covariance :
RK = ⎛⎜ O1 σO2 ⎞⎟ .
σ2
⎝ 2 ⎠
Les conditions initiales sont :
P0|0 = 1 (covariance de l’erreur d’estimation à l’instant « 0 »),

et X̂ 0|0 = 0 (estimée de X à l’instant « 0 »).
Posons D = σ 1 + σ 2 + σ 1 σ 2 .
2 2 2 2
1) Donner l’écriture de K(1) gain de Kalman à l’instant « 1 » en fonction de

σ 1 , σ 2 et D .
2) Donner l’estimée X̂ 1|1 de X 1 à l’instant « 1 » en fonction des mesures de
Y11 , Y12 et σ 1,σ 2 et D .
σ 12 σ 22
3) En posant σ = 2
2
donner P1|1 la covariance de l’erreur d’estimation à
σ 1 +σ 22
l’instant « 1 » en fonction de σ .
Solutions 7.4.
⎛ σ 12 σ2 ⎞
2
1) K (1) = ⎜ ⎟
⎝ D D ⎠
(
2) Xˆ 1|1 = σ 2 Y1 + σ 1 Y1
2 1 2 2
)/ D
σ2
3) P1|1 =
1+σ
2
Enoncé 7.5.
La distance fixe d’un objet est évaluée par 2 mesures radar de qualités
différentes.
La 1re mesure donne le résultat :
y1 = r + n1 , mesure du processus Y = X + N1 où l’on sait que le bruit N1 est

tel que :
E ( N1 ) = 0 et var ( N1 ) = σ 12 = 10-2
La 2e mesure donne : y 2 = r + n2 mesure du processus Y = X + N 2 .

E ( N 2 ) = 0 et var ( N 2 ) = w (scalaire)
Les bruits N1 et N 2 sont indépendants
1) Donner l’estimée r̂1 de r que l’on obtient à partir de la 1re mesure.
2) Affiner cette estimée en utilisant la 2e mesure. Nous appellerons r̂2 cette

nouvelle estimée que nous écrirons en fonction de w .
3) Tracer la courbe rˆ2 ( w) et justifier son allure.
Solutions 7.5.
1) rˆ1 = xˆ1|1 = y1
σ 12 100 wy1 + y2
2) rˆ2 = xˆ2|2 = y1 + ( y2 − y1 ) =
σ 12 +w 100 w + 1
3) Voir figure 7.3.
Figure 7.3. Tracé de l’évolution de l’estimée en fonction de la puissance du bruit w,

paramétrée selon les grandeurs des mesures
ANNEXES
Annexe A
Résolution de l’équation de Riccati
Montrons que : PK +1 K = A ( K ) PK K A ( K ) + C ( K ) QK C ( K )
T T
Reprenons l’écriture développée de la matrice de covariance de l’erreur de

prédiction du paragraphe 7.3.6.
PK +1 K = Α ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T
+ C ( K ) QK C(TK ) + Α ( K ) K ( K ) G ( K ) RK G T ( K ) K T ( K ) ΑT ( K )
avec :
K ( K ) = PK K −1 H T ( K ) ( Cov I K )
−1
et :
Cov I K = H ( K ) PK K −1 H (TK ) + G ( K ) RK G T ( K )
En remplaçant K ( K ) et Cov I K , par leurs expressions, dans l’écriture

récursive de PK +1 K , nous allons pouvoir simplifier l’expression de la matrice de
covariance de l’erreur de prédiction.
Pour alléger les écritures, nous allons, supprimer les indice K quand il n’y aura
pas d’ambiguïté en posant P1 = PK +1 K , P0 = PK K −1 et I = I K
( )
P1 = A I d − KH P0 ( Α − ΑKH ) + C Q C T + Α K G R G T K T ΑT
T
K = P0 H T ( Cov I )
−1
Cov I = H P0 H T + G R GT
Ainsi :
G R G T = Cov I − H P0 H T
K G R G T K T = P0 H T ( Cov I )
−1
( Cov I − H P 0 H T ) ( Cov I )
−1T
H P0T
(
= P0 H T − P0 H T ( Cov I ) H P0 H T
−1
) ( Cov I ) −1T
H P0T
KGRGT K T = P0 H T ( cov I )
−1T
HP0T − P0 H T ( cov I ) HP0 H T ( cov I )
−1 −1T
HP0T
P1 = AP0 AT − AKHP0 AT − AP0 H T K T AT + AKHP0 H T K T AT + CQC T +
−1T −1 −1T
(+ P0 H T ( cov I ) HP0T − P0 H T ( cov I ) HP0 H T ( cov I ) HP0T ) AT
soit en remplaçant K par son expression.
−1 −1T
P1 = AP0 AΤ − A P0 H T ( Cov I ) HP0 AT − AP0 H T ( Cov I ) HP0T AT
!""#""$
K
−1 −1T
+ AP0 H Τ
( Cov I ) HP0 H T ( Cov I ) HP0T AT + CQC T
(
+ A P0 H Τ ( Cov I )
−1T −1
HP0T − P0 H T ( Cov I ) HP0 H T ( Cov I )
−1T
)
HP0T AT
Le 3e et le 6e terme s’annulent le 4e et le 7e terme s’annulent également et il nous

reste : P1 = AP0 A − AKHP0 A + CQC
T T T
⎣ (
ou : P1 = A ⎡ I d − KH P0 ⎤ A + CQC
⎦ ) T T
Annexes 257
PK +1 K = A ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ) AT ( K ) + C ( K ) QK C T ( K )
!""""#"""" $
PK K
Ainsi :
PK +1 K = A ( K ) PK K AT ( K ) + C ( K ) QK C T ( K )
= matrice de covariance de l’erreur de prédiction
avec :
PK K = ( I d − K ( K ) H ( K ) ) PK K −1
= matrice de covariance de l’erreur de filtrage
Résultat que nous allons démontrer dans l’annexe B.
REMARQUE.– Comme il a été dit au paragraphe 7.3.7. connaissant les conditions

initiales sur les matrices de covariance PK |K −1 et PK |K la réactualisation du calcul
du gain permet les connaissances sur ces matrices de manière itérative.
Annexe B
Nous allons aboutir à ce résultat en partant de la définition de P et en

K K
utilisant l’écriture de la fonction K déjà obtenue.
REMARQUE.– A la différence du calcul développé au paragraphe 7.3.6. nous ne

montrerons pas que la trP obtenue est minimale.
K K
Une autre manière de montrer le résultat suivant :
( )
PK K = Ε X% K K X% TK K = PK K −1 − K ( K ) H ( K ) PK K −1
(
= Id − K ( K ) H ( K ) P ) K K −1
Preuve :
En partant de la définition de la matrice de covariance de l’erreur de filtrage,

soit :
PK |K = (
E X% K |K X% TK |K )
Il vient avec X% K | K = X K − Xˆ K |K et Xˆ K K = Xˆ K K −1 + K ( K ) I K
Soit X% K K = X K − Xˆ K K −1 − K ( K ) I K
!"
"#""
$
X% K K −1
Utilisons à présent ces résultats pour le calcul de PK |K :
( ) ( )
PK K = PK K −1 − K ( K ) Ε I K X% KT K −1 − Ε X% K K −1 I KT K (TK )
+ K ( K ) Ε ( I K I KT ) K T ( K )
Nous remarquons que :
( ) (
Ε X% K K −1 I KT = Ε X K − Xˆ K K −1 I KT )
Or I j ⊥ I K et I j ⊥ YK j ∈ [1, K − 1]
donc Xˆ K K −1 ⊥ I K
Soit :
( ) ( ) (
Ε X% K K −1 I KT = Ε X K I KT = E A−1 ( K ) ( X K +1 − C ( K ) N K ) I KT )
(
Alors : Ε X K I K = Ε A
T
) ( −1
( K ) X K +1 I KT )
Car Ε ( N K ) = 0
Annexes 259
Mais nous avons vu par ailleurs que :
(
Ε ( X K +1 I KT ) = E ( A ( K ) X K + C ( K ) N K ) H ( K ) X% K |K −1 + G ( K )WK )
T
= ( )
E A ( K ) X K X% TK |K −1 H T ( K )
car : N K ⊥ WK et N K ⊥ X% K |K −1 = X K − Xˆ K |K −1
( T
) ( )
Par ailleurs : E X K X% K |K −1 = E Xˆ K |K −1 + X% K |K −1 X% K |K −1 = PK |K +1
T
Car Xˆ K |K −1 ⊥ X% K |K −1
Ainsi il vient :
( )
Ε X% K K −1 I KT = PK K −1H T ( K )
donc :
PK K = PK K-1 − K ( K ) H ( K ) PKT K −1
− PK K −1H T ( K ) K T ( K )
+ K ( K ) ( Cov I K ) K T ( K )
avec K ( K ) = PK K −1 H ( K ) ( Cov I K )
T −1
après simplification et en notant que
PK K = PK K matrice symétrique ou hermitienne si les éléments sont complexes :

T
PK K = PK K −1 − K ( K ) H ( K ) PK K −1
ou :
PK K = [ I d − K ( K ) H ( K ) ] PK K −1
CQFD
Exemples traités en utilisant le logiciel Matlab :
Premier exemple d’un filtrage de Kalman
L'objectif est d'estimer une constante inconnue noyée dans le bruit.
Cette constante est mesurée par un capteur bruité.
Le bruit est centré, gaussien de variance égale = 1.
Les conditions initiales sont égales à 0 pour l'estimée et égale à 1 pour la

variance de l'erreur d'estimation.
clear
t=0:500;
R0=1;
constante=rand(1);
n1=randn(size(t));
y=constante+n1;
subplot(2,2,1)
%plot(t,y(1,:));
plot(t,y,'k');% en N&B
grid
title('capteur')
xlabel('temps')
axis([0 500 -max(y(1,:)) max(y(1,:))])
R=R0*std(n1)^2 ;%variance du bruit de mesure
P(1)=1;%conditions initiales sur la variance de l'erreur d'estimation

x(1)=0;
for i=2:length(t)
K=P(i-1)*inv(P(i-1)+R);
x(i)=x(i-1)+K*(y(:,i)-x(i-1));
P(i)=P(i-1)-K*P(i-1);
end
err=constante-x;
subplot(2,2,2)
plot(t,err,'k');
grid
title('erreur');
xlabel('temps')
Annexes 261
axis([0 500 -max(err) max(err)])
subplot(2,2,3)
plot(t,x,'k',t,constante,'k');% en N&B
title('x extimée')
xlabel('temps')
axis([0 500 0 max(x)])
grid
subplot(2,2,4)
plot(t,P,'k');% en N&B
grid,axis([0 100 0 max(P)])
title('variance erreur estimation')
xlabel('temps')
Figure A 1. Tracé de la mesure, de l’erreur, de la meilleure filtrée et la variance de l’erreur
Second exemple du filtrage de Kalman
L'objectif de cet exemple est d'extraire une sinusoîde amortie dans du bruit.
Le vecteur d'état est un vecteur colonne à 2 composantes :

X1=10*exp(-a*t)*cos(w*t)
X2=10*exp(-a*t)*sin(w*t)
Le bruit de système est centré, gaussien et de variance var(u1) et var(u2).
Le bruit de mesures est centré, gaussien et de variance var(v1) et var(v2).
Conditions initiales :
Les composantes du vecteur d'état sont nulles à l'origine et la matrice de

covariance de l'erreur d'estimation est initialisée à 10* matrice identité.
REMARQUE.– Le programme proposé n'est pas le plus court et le plus rapide au sens
du temps CPU, il est détaillé pour permettre une meilleure compréhension.
clear
%simulation
a=0.05;
w=1/2*pi;
Te=0.005;
Tf=30;
Ak=exp(-a*Te)*[cos(w*Te) -sin(w*Te);sin(w*Te) cos(w*Te)];%matrice d'état
Hk=eye(2);%matrice d'observations
t=0:Te:Tf;
%X1
X1=10*exp(-a*t).*cos(w*t);
%X2
X2=10*exp(-a*t).*sin(w*t);
Xk=[X1;X2];% vecteur d'état
%bruit de mesures
sigmav1=100;
sigmav2=10;
v1=sigmav1*randn(size(t));
v2=sigmav2*randn(size(t));
Vk=[v1;v2];
Yk=Hk*Xk+Vk;%vecteur de mesures
%matrice de covariance du bruit de mesures

Rk=[var(v1) 0;0 var(v2)];%matrice de covariance des bruits
%initialisation
sigmau1=0.1;%bruit de système
sigmau2=0.1;%idem
Annexes 263
u1=sigmau1*randn(size(t));
u2=sigmau2*randn(size(t));
%Uk=[sigmau1*randn(size(X1));sigmau2*randn(size(X2))];
Uk=[u1;u2];
Xk=Xk+Uk;
sigq=.01;
Q=sigq*[var(u1) 0;0 var(u2)];
sigp=10;
P=sigp*eye(2);%matrice de covariance d'erreur d'estimation P(0,0)
%tracé
subplot(2,3,1)
%plot(t,X1,t,X2);
plot(t,X1,'k',t,X2,'k')% en N&B
axis([0 Tf -max(abs(Xk(1,:))) max(abs(Xk(1,:)))])

title('sign. à filtrer x1 et x2')
subplot(2,3,2)
%plot(t,Vk(1,:),t,Vk(2,:),'r')
plot(t,Vk(1,:),t,Vk(2,:));% en N&B
axis([0 Tf -max(abs(Vk(1,:))) max(abs(Vk(1,:)))])

title('bruits de mes.w1 et w2')
subplot(2,3,3)
%plot(t,Yk(1,:),t,Yk(2,:),'r');
plot(t,Yk(1,:),t,Yk(2,:));% en N&B
axis([0 Tf -max(abs(Yk(1,:))) max(abs(Yk(1,:)))])

title('sign.mesurés y1 et y2')
Xf=[0;0];
%%estimation et prédiction par kalman
for k=1:length(t);
%%prediction
Xp=Ak*Xf; % Xp=Xest(k+1,k) et Xf=Xest(k,k)
Pp=Ak*P*Ak'+Q; % Pp=P(k+1,k) et P=P(k)

Gk=Pp*Hk'*inv(Hk*Pp*Hk'+Rk); % Gk=Gk(k+1)
Ik=Yk(:,k)-Hk*Xp;% Ik=I(k+1)=innovation
%meilleure filtrée
Xf=Xp+Gk*Ik; % Xf=Xest(k+1,k+1)
P=(eye(2)-Gk*Hk)*Pp;% P=P(k+1)
X(:,k)=Xf;
P1(:,k)=P(:,1);%1ère colonne de P
P2(:,k)=P(:,2);%2eme colonne de P
end
err1=X1-X(1,:);
err2=X2-X(2,:);
%%traçé
subplot(2,3,4)
%plot(t,X(1,:),t,X(2,:),'r')
plot(t,X(1,:),'k',t,X(2,:),'k')% en N&B
axis([0*Tf Tf -max(abs(X(1,:))) max(abs(X(1,:)))])
title('estimées x1 et x2')
subplot(2,3,5)
%plot(t,err1,t,err2)
plot(t,err1,'k',t,err2,'k')% en N&B
axis([0 Tf -max(abs(err1)) max(abs(err1))])
title('erreurs')
subplot(2,3,6)
%plot(t,P1(1,:),'r',t,P2(2,:),'b',t,P1(2,:),'g',t,P2(1,:),'y')
plot(t,P1(1,:),'k',t,P2(2,:),'k',t,P1(2,:),t,P2(1,:),'b')
%rouge P11, blue P22, vert P21, jaune P12

axis([0 Tf/10 0 max(P1(1,:))])
title('covar.err.estimation.')% p11, p22, p21 et p12

Annexes 265
Figure A 2. Tracé des signaux sans bruits, des bruits de mesures,

des mesures, des filtrées, des erreurs et des variances
TABLE DES SYMBOLES ET NOTATIONS
N, R, C Ensembles numériques.
L2 Espace des fonctions de carré sommable.
p.s. « presque sûrement ».
E Espérance mathématique.
v.a. variable aléatoire.
v.a.r. variable aléatoire réelle.
p.s.
X n ⎯⎯⎯ →X Convergence p.s. de la suite X n vers X .
⋅, ⋅ L2 ( ) Produit scalaire dans L2 .
⋅ L2 ( )
Norme L2 .
Var Variance.
Cov Covariance.
⋅∧⋅ min ( ⋅ , ⋅) .
X ∼ N (m, σ 2 ) Loi normale de moyenne m et de variance σ2.

AT Matrice A transposée.
HKY Espace de Hilbert engendré par YN , processus scalaires

ou multivariés.
Pr ojHY Projection sur l’espace de Hilbert engendré par Y( t ≤ K ) .

K
XT Processus stochastique défini sur T ( le temps décrit T ).
p.a.o. Processus à accroissements orthogonaux.
p.a.o.s. Processus à accroissements orthogonaux et stationnaires.
Xˆ K |K −1 Prédite à l’instant K connaissant les mesures du

processus YK des instants 1 à K −1 .
X" K |K −1 Erreur de prédiction.
Xˆ K |K Filtrée à l’instant K connaissant ses mesures des instants

1 à K.
X" K |K Erreur de filtrage.
∇λ C Gradient de la fonction C ( λ ) .
BIBLIOGRAPHIE
[BER 98] BERTEIN J.C., CESCHI R., Processus stochastiques et filtrage de Kalman,
Editions Hermès, 1998.
[BLA 01] BLANCHET G., CHARBIT M., Signaux et images sous Matlab, Editions
Hermès, 2001.
[BOL 87] BOLAND F.M., FOLEY J.B., « Stochastic Convergence of the LMS
Algorithm in Adaptive Systems », Signal processing, North Holland 13, 1987.
[CHU 87] CHUI C.K., CHEN G. Kalman filtering, Editions Springer-Verlag, 1987.
[GIM 82] GIMONET B., LABARRERE M., KRIEF J.-P., Le filtrage et ses applications,
Editions Cépadues, 1982.
[HAY 91] HAYKIN S., Adaptive Filter Theory, Prentice Hall, 1991.
[MAC 81] MACCHI O., « Le filtrage adaptatif en télécommunications », Annales des
Télécommunications, 36, n° 11-12, 1981.
[MET 72] METIVIER M., Notions fondamentales de la théorie des probabilités,
Editions Dunod, 1972.
[MOK 00] MOKHTARI M., Matlab et Simulink pour étudiants et ingénieurs, Editions
Springer, 2000.
[RAD 84] RADIX J.-C., Filtrages et lissages statistiques optimaux linéaires, Editions
Cépadues, 1984.
[SHA 88] SHANMUGAN K.S., BREIPOHL A.M., Random Signal, John Wiley & Sons,
1988.
[THE 92] THERRIEN C.W., Discrete Random Signals and Statistical Signal
Processing, Prentice Hall, 1992.
[WID 85] WIDROW B., STEARNS S.D., Adaptive Signal Processing, Prentice Hall,
1985.
INDEX
A, B, C quadratique moyenne 198

adaptatif 193 espace
aléatoire à densité 22 de Hilbert 147, 181
analytiques 184 linéaire 109
annulation 195 linéaire d'observation 167
auto-régressif 131 estimation 236
axes principaux 209 filtrage 144, 234
blanchiement 184 filtrée 237, 240
borélienne 17 Finite Impulse Response (FIR), 181
bruit fonction
blanc 113, 183 caractéristique 18
de mesure 226 coût 147, 198
de système 226 covariance 112
causal 185 d'autocorrelation 106
coefficients 180 de répartition 25
de corrélation 51 de transfert 124, 184
colinéaires 204
convergence 204, 211 G, I, J, L
convergent 212 gain de Kalman 240
coût 203, 212 gradient stochastique 205
covariance 51 gradient 202
identification 195
D, E, F indépendance 26
déconvolution 195 indépendants 233, 254
dégénérée 72 Infinite Impulse Response (IIR), 184
densité spectrale 111 innovation 228
déterministe 207, 211 intercorrelation 186
équation de transition 233 jacobien 84
ergodicité 103 lissage 144, 234
erreur
de prédiction 236
minimale 183
M, N, O quadratique 209
marginales 23 moyenne 181
matrice 244 réponse impulsionnelle 179
de covariance 74 Riccati 245
de covariance de l'erreur de filtrage singulière 182
240 stabilité 211
de covariance de l'erreur de prédiction stable 212
236, 243, 244 stationnarité 101
de covariance du processus du second ordre 102, 195
d'innovation 235 stochastique 99, 213
de mesures 233
d'état 232 T, V, W
orthogonale 209 théorème
Q unitaire 209 de Paley-Wiener 184
mesure P 18 de projection 181, 199
multivariés 166 Toeplitz 203, 209
multivecteur 231, 232 trace 243
non récursif 195 trajectoire 100
orthogonal 189 tribu 16
valeurs propres 82, 208
P, Q, R, S variables aléatoires 191, 226, 227
phase minimale 184 variance 50
plan de régression 152 vecteur
prédicteur 195 aléatoire 17
prédiction 144, 195, 234 bruit de mesures 233
prédite 244 bruit de système 232
processus d'état 232
à temps discret 99 d'observations 232
de Markov 106 espérance 75
d'innovation 171 propre 82, 209
multivarié 203, 236 Wiener 179
stationnaire du second ordre 179, 180
projection 226

Processus Stochastiques Discrets Et Filtrages Op

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Processus Stochastiques Discrets Et Filtrages Op

Uploaded by

Copyright:

Available Formats

Processus stochastiques discrets

Le Code de la propriété intellectuelle n'autorisant, aux termes de l'article L. 122-5, d'une

Chapitre 1. Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Chapitre 2. Vecteurs gaussiens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Chapitre 3. Généralités sur les processus à temps discret . . . . . . . . . . . . . . . 99

Chapitre 4. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Chapitre 5. Le filtre de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

Chapitre 6. Filtrage adaptatif : algorithme du gradient et du LMS . . . . . . 193

6.6. Estimation du gradient et algorithme LMS . . . . . . . . . . . . . . . . . . . . . 205

Chapitre 7. Le filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

Table des symboles et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

Le filtrage optimal discret appliqué aux signaux stationnaires et non stationnaires

Grâce à cet ouvrage, le lecteur pourra non seulement comprendre le filtrage

Le caractère optimal s’entend au sens où nous choisissons toujours le critère qui

Le premier chapitre aborde les vecteurs aléatoires, ses principales définitions et

Le second chapitre traite des vecteurs gaussiens. Etant donné l’importance

Le troisième chapitre, « Généralités sur les processus à temps discrets », est de

Le chapitre 4, « Estimation », nous apporte les briques essentielles à la

Le chapitre 5 traite du filtre de Wiener, dispositif électronique bien adapté au

L’ouvrage s’achève avec l’étude du filtrage de Kalman qui permet le traitement

1.1. Définitions et propriétés générales

qui en font un espace vectoriel de dimension n.

La base implicitement considérée sur !n sera la base canonique

Définition d’un vecteur aléatoire réel

Pour des raisons typographiques, le vecteur sera plutôt écrit X T = ( X1 ,..., X n )

Autrement dit, étant donné un vecteur aléatoire X et Β ⊂ ! n on ne sait pas si

Par contre, on connaît en général la « chance » pour que X ∈ Β ; celle-ci est

Après la réalisation du phénomène, le résultat (appelé aussi réalisation) sera noté

quand aucune confusion ne sera à craindre.

Voici maintenant la définition rigoureuse d’un vecteur aléatoire réel de

contient tous les ouverts de ! n.

Quand n = 1 , on parlera de variable aléatoire ou plus rapidement de v.a.

Dans la suite l’événement Χ −1 ( Β ) est noté également {ω X (ω ) ∈ B et}

PROPOSITION.– Pour que X soit un vecteur aléatoire réel de dimension n (c’est-à-

DÉMONSTRATION ABRÉGÉE.– Il suffit de considérer :

Or X −1 ( Β1 × ... × Β n ) = X1−1 ( Β1 ) ∩ ... ∩ X n−1 ( Β n ) ,

qui appartient à a si et seulement si chaque terme appartient à a , c’est-à-dire si

DÉFINITION.– On dit que X = X1 + iX 2 est une variable aléatoire complexe définie

PAR EXEMPLE.– A un vecteur aléatoire réel X = ( X1 ,..., X n ) et à un n-uple réel

Loi Ρ X du vecteur aléatoire X .

On suppose d’abord que la tribu a est munie d’une mesure P , c’est-à-dire

DÉFINITION.– On appelle loi du vecteur aléatoire X, la « mesure image PX de P

Figure 1.1. Application mesurable X

REMARQUE.– Sur la définition naïve et sur la définition rigoureuse : la définition

(soit X,Y,Z, ... : (Ω, a ) → ( ! ,B ( ! )))

se révélera souvent utile voire même indispensable.

Figure 1.2. Famille d’applications mesurables

En effet, via l’espace ( Ω, a,P ) , les expressions et calculs faisant intervenir

Donnons deux exemples :

1) soit deux vecteurs aléatoires X , Y : ( Ω, a, P ) → ! , B !( n

Cherchons à exprimer l’événement (Z ≥ a − X −Y ).

Figure 1.3. Exemple de Borélien de !3

En général ( Ω, a, P ) n’est pas précisé ou bien donné antérieurement à

DÉFINITION.– On dit que la loi PX du vecteur aléatoire X est à densité si il existe

densité de PX telle que : ∀B ∈ B ( ! n ) .

P ( X ∈ B ) = PX ( B ) = ∫ dPX ( x1 ,..., xn ) = ∫ f X ( x1 ,..., xn ) dx1 ,..., dxn

VOCABULAIRE.– On écrit parfois dPX ( x1 ,..., xn ) = f X ( x1 ,..., xn ) dx1 ,..., dxn

Soit par exemple le vecteur aléatoire X = ( X1 , X 2 , X 3 ) de densité

On obtient facilement par un passage en coordonnées sphériques :

DÉFINITION.– La v.a. X j , j ième composante de X , s’appelle j ième marginale de

Si on connaît PX , on sait trouver les lois PX .

par le théorème de Fubini :

L’égalité ayant lieu pour tout B , on obtient :

ATTENTION.– Réciproquement, sauf dans le cas des composantes indépendantes, la