Professional Documents
Culture Documents
et filtrages optimaux
© LAVOISIER, 2005
LAVOISIER
11, rue Lavoisier
75008 Paris
www.hermes-science.com
www.lavoisier.fr
ISBN 2-7462-1201-3
Tous les noms de sociétés ou de produits cités dans cet ouvrage sont utilisés à des fins
d’identification et sont des marques de leurs détenteurs respectifs.
Jean-Claude Bertein
Roger Ceschi
A nos familles
TABLE DES MATIÈRES
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
AVANT-PROPOS
Il constitue la brique élémentaire nécessaire dans les domaines les plus divers :
calcul des orbites ou de guidages d’aéronefs dans le domaine aérospatial ou
aéronautique, calcul de filtres dans le domaine des télécommunications ou dans le
domaine de la commande des systèmes ou encore dans celui des traitements de
signaux sismiques, la liste est non exhaustive.
De plus, l’étude et les résultats obtenus sur des signaux discrets permet une
implémentation très facile sur calculateur.
Dans leur ouvrage, les auteurs ont eu le souci permanent de la pédagogie et ils
l’ont souvent préférée à l’érudition ; tous les préliminaires mathématiques et
probabilistes utiles à la bonne compréhension du filtrage optimal ont été traités de
façon rigoureuse. Il ne sera pas toujours nécessaire d’avoir recours à d’autres
ouvrages pour acquérir une bonne connaissance des sujets étudiés.
Cet ouvrage a pour but de présenter les bases du filtrage optimal discret d’une
manière progressive et rigoureuse.
Le filtrage adaptatif, qui est le sujet traité au chapitre 6, peut être considéré
comme une application assez directe de la méthode du gradient déterministe ou
stochastique. Au bout du processus d’adaptation ou de convergence, nous retrouvons
le filtre de Wiener.
14 Processus stochastiques et filtrages optimaux
Chaque chapitre est ponctué par une série d’exercices corrigés et des exemples
résolus sont également fournis en utilisant le logiciel Matlab bien adapté aux
problèmes de traitement de signaux.
CHAPITRE 1
Vecteurs aléatoires
{
On rappelle que ! n = x = ( x1 ,..., xn ) }
x j ∈ ! ; j = 1 a n , l’ensemble des
x, y → x + y et ( λ ,x ) → λ x
n -uples réels peut être muni de deux lois :
!n × !n !n ! × !n !n
⎛ x1 ⎞
⎜ ⎟
x = ⎜ " ⎟ (ou xT = ( x1 ,..., xn ) ).
⎜x ⎟
⎝ n⎠
⎛ X1 ⎞
⎜ ⎟
On dit que le vecteur réel X = ⎜ " ⎟ lié à un phénomène physique, biologique, etc.,
⎜X ⎟
⎝ n⎠
est aléatoire si la valeur prise par ce vecteur est inconnue, tant que le phénomène ne
s’est pas réalisé.
16 Processus stochastiques et filtrages optimaux
!n Β
.X
⎛ x1 ⎞
⎜ ⎟
x = ⎜ " ⎟ ou xT = ( x1 ,..., xn ) ou même x = ( x1 ,..., xn )
⎜x ⎟
⎝ n⎠
1) Ω ∈ a ,
2) si Α ∈ a alors le complémentaire Ac ∈ a ,
( )
3) si Α j , j ∈ J est une famille dénombrable d’événements ∪ A j est un
j∈J
événement, c’est-à-dire ∪ Aj ∈ a ;
j∈J
n
– ! = espace des observables ;
( )
– B ! n = tribu borélienne sur ! n ; c’est la plus petite tribu sur ! n qui
DÉFINITION.– On dit que X est un vecteur aléatoire réel de dimension n défini sur
(Ω , a) si X est une application ( Ω , a ) → ! n ,B ! n ( ( )) mesurable, c’est-à-dire :
∀Β ∈ B ! n( ) Χ −1 ( Β ) ∈ a.
Χ −1 ( Β1 × ... × Β n ) où Β1 ,..., Β n ∈ B ( R )
( )
car on montre que B ! n = B ( R ) ⊗ ... ⊗ B ( R ) est égale à la tribu engendrée par
les pavés mesurables Β1 × ... × Β n .
18 Processus stochastiques et filtrages optimaux
i∑ u j X j
e j
= cos ∑ u j X j + i sin∑ u j X j
j j
L’étude de cette variable aléatoire sera reprise quand nous définirons les
fonctions caractéristiques.
Loi
1) P ( Ω ) = 1
( )
2) Pour toute famille A j , j ∈ J d’événements 2 à 2 disjoints :
⎛ ⎞
P ⎜ ∪ Aj ⎟ =
⎝ j∈J ⎠
∑ P ( Aj )
j∈J
Vecteurs aléatoires 19
suivante : ∀Β ∈ B ! ( n)
(
PX ( Β ) = ∫ dPX ( x1 ,..., xn ) = P X −1 ( B )
Β ↑
)
Définition
= P ω ( )
X (ω ) ∈ Β = P ( X ∈ Β )
Les termes 1 et 2 d’une part et les termes 3, 4 et 5 d’autre part sont des notations
différentes de la même notion mathématique.
!n
X
X
−1
(B ) ∈ a B ∈B ( ! n )
Il faut bien noter que la mesure P étant donnée sur a, PX ( Β ) est calculable
( )
pour tout Β ∈ B ! n parce que X est mesurable.
( )
L’espace ! n muni de la tribu B ! n et ensuite de la loi PX est noté :
( ! ,B ( ! ) , P )
n n
X
20 Processus stochastiques et filtrages optimaux
Par contre dans les études plus théoriques ou plus sophistiquées et notamment
dans celles faisant intervenir plusieurs vecteurs aléatoires, X , Y , Z ,... , considérer ces
derniers comme des applications définies sur le même espace ( Ω, a ) ,
X (ω )
ω Y (ω )
Ω !n Z (ω )
( )
B et B′ ∈ B ! n . L’événement ( X ∈ B ) ∩ (Y ∈ B′ ) (par exemple) se traduit
par X −1 ( B ) ∩ Y −1 ( B ′ ) ∈ a ;
( )
2) soit 3 v.a. X , Y , Z : ( Ω, a, P ) → !, B ( ! ) et soit a ∈ !*+ .
Vecteurs aléatoires 21
Posons U = ( X , Y , Z ) et B = {( x, y, z ) ∈ !3 x+y+z ≥ a }
B Borélien de !3, représente le demi espace délimité par le plan ( Π ) ne
contenant pas l’origine 0 et s’appuyant sur le triangle A B C .
C (a)
0
B (a)
A(a)
(
U est ( Ω, a ) → !3 , B !3 ( ) ) mesurable et :
U ( Z ≥ a − X − Y ) = (U ∈ B ) = U −1 ( B ) ∈ a .
REMARQUE SUR L’ESPACE ( Ω, a, P ) .– On a dit que l’on se donnait Ω et puis a
sur Ω et puis P sur a et qu’ensuite, on considérait les vecteurs X , Y , Z ,...
comme des applications mesurables :
( Ω, a, P ) → ( ! n ,B ( ! n ) )
Cette façon d’introduire les différents concepts est la plus simple à appréhender,
mais elle correspond rarement aux problèmes probabilistes réels.
22 Processus stochastiques et filtrages optimaux
Ce qui vient d’être exposé peut sembler bien abstrait mais heureusement les
vecteurs aléatoires généraux comme ils viennent d’être définis sont rarement utilisés
dans la pratique.
En tout cas et en ce qui nous concerne, nous n’aurons dans la suite à manipuler
que la notion beaucoup plus particulière et plus concrète de « vecteur aléatoire à
densité ».
REMARQUE.– ∫B ( )
f X ( x1 ,...xn ) dx1 ,...dxn = P X ∈ ! n = 1 .
π R4 4
1= ∫∆ Kx3 dx1 dx2 dx3 = K
4
d’où K =
π R4
.
Marginales
⎛ X1 ⎞
⎜ ⎟
Soit le vecteur aléatoire X = ⎜ " ⎟ de loi PX et de densité de probabilité
⎜X ⎟
⎝ n⎠
fX .
En effet ∀B ∈ B ( ! ) .
( ) (
P X j ∈ B = P ⎡⎣( X 1 ∈ ! ) ∩ ... ∩ X j ∈ B ∩ ... ∩ ( X n ∈ ! ) ⎤⎦ = )
∫ ( )
f X x1 ,..., x j ,..., xn dx1 ...dx2 ...dxn
! ×...× B ×...× !
= ∫ dx j ∫
B ! n−1
( $)
f X x1 ,..., x j ,..., xn dx1...dxn
%&% '
sauf dx j
( )
fX j xj = ∫
! n−1
( )
f X x1 ,..., x j ,..., xn dx1...dxn .
$%&% '
sauf dx j
24 Processus stochastiques et filtrages optimaux
EXEMPLE.– Considérons :
1 ⎛ x2 + y2 ⎞
f Z ( x, y ) = exp ⎜ − ⎟.
2π ⎜ 2 ⎟⎠
⎝
+∞ 1 ⎛ x2 ⎞
f X ( x) = ∫ −∞ f z ( x, y ) dy =
2π
exp ⎜ −
⎜ 2
⎝
⎟ et
⎟
⎠
+∞ 1 ⎛ y2 ⎞
fY ( y ) = ∫ −∞ f z ( x, y ) dx =
2π
exp ⎜ −
⎜ 2 ⎟
⎝
⎟.
⎠
fW ( u, v ) = 2 f Z ( u, v ) si uv ≥ 0 fW ( u, v ) = 0 si uv < 0 .
+∞ +∞
fU ( u ) = ∫ −∞ fW ( u , v ) dv = ∫ −∞ 2 f Z ( u, v ) dv si u ≤ 0
+∞
= ∫ −∞ 2 f Z ( u, v ) dv si u > 0
1 ⎛ u2 ⎞
D’où facilement fU ( u ) = exp ⎜ − ⎟ .
2π ⎜ 2 ⎟
⎝ ⎠
Vecteurs aléatoires 25
1 ⎛ v2 ⎞
Et symétriquement fV ( v ) = exp ⎜ − ⎟ .
2π ⎜ 2 ⎟
⎝ ⎠
CONCLUSION.– On voit bien sur cet exemple que les densités marginales (elles sont
identiques en 1 et 2) ne déterminent pas les densités des vecteurs (elles sont
différentes en 1 et 2).
Fonction de répartition
FX : ( x1 ,..., xn ) → FX ( x1 ,..., xn )
!n [0,1]
définie par :
FX ( x1 ,..., xn ) = P ( ( X1 ≤ x1 ) ) ∩ ... ∩ ( X n ≤ xn )
x1 xn
FX ( x1 ,..., xn ) = ∫ ( ∫ f X ( u1 ,.., un ) du1.. dun .
−∞ −∞
∂ n FX
– si ( x1 ,..., xn ) → f X ( x1 ,..., xn ) est continue, alors = fX .
∂ xn ...∂ x1
Indépendance
DÉFINITION.– On dit qu’une famille de v.a. : X 1 , ..., X n est une famille indépendante
si ∀ J ⊂ {1, 2,..., n} et pour toute famille de B j ∈ B ( ! ) :
⎛ ⎞
(
P⎜ ∩ X j ∈ Bj ⎟ = ) ∏ (
P X j ∈ Bj )
⎝ j∈J ⎠ j∈J
⎛ n ⎞ n
∀B j ∈ B ( ! ) : P ⎜
⎜ ∩( X j ∈ Bj ) ∏ (
⎟=
⎟
P X j ∈ Bj )
⎝ j =1 ⎠ j =1
encore équivalente à :
n
∀B j ∈ B ( ! ) P ( X ∈ B1 × ... × Bn ) = ∏ P ( X j ∈ Bj )
j =1
n
∀B j ∈ B ( ! ) PX ( B1 × ... × Bn ) = ∏ PX ( Bj ) . j
j =1
(définie sur ( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! )) est le produit (tensoriel) des lois
ATTENTION.– Soit X 1 ,..., X n une famille de v.a. Si cette famille est indépendante,
les v.a. sont indépendantes 2 à 2, mais la réciproque est fausse.
Vecteurs aléatoires 27
Pour que la famille des composantes soit une famille indépendante, il faut et il suffit
que :
n
f X ( x1 ,..., xn ) = ∏ fX (x j ) .
j
j =1
⎛ n ⎞ n n
FX ( x1 ,..., xn ) = P ⎜
⎜ ∩(
X j ≤ xj ) ⎟⎟ = ∏ P ( X j ≤ x j ) = ∏ FX j ( x j )
⎝ j =1 ⎠ j =1 j =1
∂ n FX ( x1 ,..., xn ) n
( )
∂FX j x j n
f X ( x1 ,..., xn ) =
∂xn ...∂x1
= ∏ ∂x j
= ∏
fX j x j ; ( )
j =1 j =1
n
– réciproquement si f X ( x1 ,..., xn ) = ∏ fX (x j ) : j
j =1
soit B j ∈ B ( ! ) pour j = 1 à n :
⎛ n ⎞ ⎛ n ⎞
(
P⎜ ∩ X j ∈ Bj ⎟ = P⎜ X ∈
⎜
) Bj ⎟ =
⎟ ∏ ∫ ∏n B j f X ( x1,..., xn ) dx1... dxn
⎝ j =1 ⎠ ⎝ J =1 ⎠ j =1
n n n
= n
∏ j ( x j ) dx j = ∏ ∫ B j f X j ( x j ) dx j = ∏ P ( X j ∈ B j )
∫ ∏ B j j =1 fX
j =1 j =1
j =1
28 Processus stochastiques et filtrages optimaux
n
REMARQUE.– L’égalité f X ( x1 ,..., xn ) = ∏ f X j ( x j ) est la définition de la fonction
j =1
1 ⎛ x 2 + x22 ⎞
exp ⎜ − 1 ⎟.
2π ⎜ 2 ⎟
⎝ ⎠
1 ⎛ x 2 + x22 ⎞ 1 ⎛ x2 ⎞ 1 ⎛ x22 ⎞
Comme exp ⎜ − 1 ⎟= exp ⎜ − ⎟ ⎜− ⎟
2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟
⎝ ⎠ ⎝ ⎠ ⎝ ⎠
1 ⎛ x2 ⎞ 1 ⎛ x2 ⎞
et comme exp ⎜ − 1 ⎟ et exp ⎜ − 2 ⎟ sont les densités de X 1 et de X 2 ,
2π ⎜ 2 ⎟ 2π ⎜ 2 ⎟
⎝ ⎠ ⎝ ⎠
ces deux composantes X 1 et X 2 sont indépendantes.
sont indépendants si :
( )
∀B ∈ B ! n et B ' ∈ B ! p ( )
P ( ( X ∈ B ) ∩ (Y ∈ B ' ) ) = P ( X ∈ B ) P (Y ∈ B ' )
0
z x
2) P ( X 1 + X 2 ≤ a − X 3 ) = P ( ( X1 , X 2 , X 3 ) ∈ B )
= ∫ f X ( x1 , x2 , x3 ) dx1 dx2 dx3
B
0 x
y
B
A
30 Processus stochastiques et filtrages optimaux
1
B est le espace contenant l’origine 0 et limité par le plan s’appuyant sur le
2
triangle A B C et d’équation x + y + z = a .
(
3) P Max ( X1 + X 2 ) ≤ z ) = P ( ( X1, X 2 ) ∈ B )
= ∫ f X ( x1 , x2 ) dx1 dx2
B
z
0
x
z
+∞
f Z ( z ) = ( f X ∗ fY )( z ) = ∫ f X ( x ) fY ( z − x ) dx .
−∞
FZ ( z ) = P ( Z ≤ z ) = P ( X + Y ≤ z ) = P ( ( X , Y ) ∈ B )
(où B est défini dans l'exemple 1) ci-avant)
= ∫ f ( x, y ) dx dy = (Indépendance) ∫ f X ( x ) fY ( y ) dx dy
B B
Vecteurs aléatoires 31
z x+ y = z
z−x
0
x
x z
+∞ z−x
=∫ f X ( x ) dx ∫ fY ( y ) dy.
−∞ −∞
En posant y = u − x :
+∞ z z +∞
=∫ f X ( x ) dx ∫ fY ( u − x ) du = ∫ du ∫ f X ( x ) fY ( u − x ) dx.
−∞ −∞ −∞ −∞
+∞
L’application u → ∫ −∞ f X ( x ) fY ( u − x ) dx étant continue, FZ ( z ) en est
une primitive et :
+∞
FZ′ ( z ) = f Z ( z ) = ∫ f X ( x ) fY ( z − x ) dx .
−∞
+
REMARQUE.– Si (par exemple) f X et fY sont à support sur ! , c’est-à-dire si
f X ( x ) = f X ( x )1 [0,∞[ ( x ) et fY ( y ) = fY ( y ) 1 [0,∞[( y )
on a facilement :
z
f Z ( z ) = ∫ f X ( x ) fY ( z − x ) dx .
0
Posons Z = X + Y :
Pour z ≤ 0 fZ ( z ) = 0 .
Pour z ≥ 0
+∞
f X ( x ) fY ( z − x ) dx = ∫ λ e ( ) dx = λ 2 ze− λ z
z
fZ ( z ) = ∫
−λ z − x
−∞ 0
et f Z ( z ) = λ z e 1[0,∞[ ( z ) .
2 −λ z
1.2.1. Définitions
( Ω, a,P ) ( !, B ( ! ) )
ordre ;
– et celle de L ( dP ) espace vectoriel de variables aléatoires du second
2
ordre :
{
L1 ( dP ) = v. a. X ∫ Ω X (ω ) dP (ω ) < ∞}
L ( dP ) = {
2
v. a. X ∫Ω X (ω ) dP (ω ) < ∞ }
2
où, dans ces expressions, les v.a. sont bien définies à un événement de probabilité
nulle près, ou bien : les v.a. X sont des représentants quelconques des classes X+ ,
car, par construction les intégrales des v.a. ne sont pas modifiées si on modifie ces
dernières sur des événements de probabilités nulles.
X + = Sup ( X , 0 ) et X − = Sup ( − X , 0 )
+
On peut écrire X = X − X − et X = X + + X − .
Soit X ∈ L ( dP ) , on a donc :
1
∫ Ω X (ω ) dP (ω ) < ∞ ⇔ ∫ Ω X (ω ) dP (ω ) < ∞
+
et
∫ Ω X (ω ) dP (ω ) < ∞.
−
Donc, si X ∈ L ( dP ) , l’intégrale :
1
∫ Ω X (ω ) dP (ω ) = ∫ Ω X (ω ) dP − ∫ Ω X (ω ) dP (ω )
+ −
34 Processus stochastiques et filtrages optimaux
REMARQUE.– L
2
( dP ) ⊂ L1 ( dP )
En effet, soit X ∈ L
2
( dP ) , d’après l’inégalité de Schwarz :
(∫ ) ≤∫
2
X (ω ) dP (ω ) X 2 (ω ) dP ∫ dP (ω ) < ∞
Ω Ω Ω
$%&% '
1
1 ⎛ 1 ⎛ x − m ⎞2 ⎞
EXEMPLE.– Soit X une v.a. gaussienne (densité exp ⎜ − ⎜ ⎟ ⎟ ).
2πσ ⎝ 2⎝ σ ⎠ ⎠
Elle appartient à L ( dP ) et à L ( dP ) .
1 2
1
soit Y une v.a. de Cauchy : (densité ).
(
π 1 + x2 )
Elle n’appartient pas à L ( dP ) et elle n’appartient donc pas à L ( dP )
1 2
non
plus.
1.2.2. Propriétés
dans la suite ;
2) L
2
( dP ) est un espace de Hilbert. On donne ici les propriétés sans
démonstration.
∫Ω X (ω ) Y (ω ) dP (ω ) ≤ ∫ X 2 (ω ) dP (ω ) ∫ Y 2 (ω ) dP (ω ) < ∞
Ω Ω
*L
2
( dP ) est un espace vectoriel normé par :
∫ Ω X (ω ) dP (ω ) .
2
X = < X, X > =
∀ X , Y ∈ L2 ( dP ) X +Y ≤ X + Y
∀ X ∈ L2 ( dP ) et ∀λ ∈ ! λX = λ X
– si X = (∫ Ω )
X 2 (ω ) dP (ω ) = 0 ⇒ X = 0 p.s. ou X+ = 0+ ( )
*L
2
( dP ) est un espace complet pour la norme . définie ci-avant. (Toute
suite de Cauchy X n converge vers une X de L
2
( dP )).
1.3.1. Définitions
X = ( X1 ,..., X n ) : ( Ω, a , P ) → ( ! n , B ( ! n ) ) .
36 Processus stochastiques et filtrages optimaux
(
Ψ : ! n , B !n ( ) ) → ( !, B ( ! ) )
Ψ , X (notée aussi Ψ ( X ) ou Ψ ( X 1 ,..., X n )) est une application mesurable
(donc une v. a.) définie sur ( Ω, a ) .
E (Ψ , X ) = ∫ ( Ψ , X )(ω ) dP (ω )
Ω
E ( Ψ ( X 1 ,..., X 2 ) ) = ∫ Ψ ( X1 (ω ) ,..., X n (ω ) ) dP (ω ) .
Ω
( Ω, a, P ) à l’espace ( !n , B ( !n ) , PX ).
Pour simplifier l’écriture dans le théorème qui suit (et comme souvent dans la
suite) ( X 1 ,..., X n ) , ( x1 ,..., xn ) et dx1...dxn seront souvent notés respectivement
X , x et dx.
Théorème de transfert
Supposons Ψ , X ∈ L ( dP ) , on a alors :
1
1) E ( Ψ , X ) = ∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x )
En particulier si PX admet une densité f X :
E (Ψ , X ) = ∫ Ψ ( x ) f X ( x ) dx et E X = ∫ x f X ( x ) dx ;
!n !
2) Ψ ∈ L ( dPX )
1
DÉMONSTRATION.–
E ( Ψ , X ) = E (1B , X ) = PX ( B )
=∫ 1
!n B
( x ) dPX ( x ) = ∫ !n Ψ ( x ) dPX ( x )
– l’égalité est encore vraie si Ψ est une fonction étagée c’est-à-dire si
m
j =1
j
( )
Ψ = ∑ λ j 1B où les B j ∈ B ! n et sont disjoints 2 à 2.
On a en effet :
38 Processus stochastiques et filtrages optimaux
( )
m m
Ε ( Ψ , X ) = ∑ λ j Ε 1B , X = ∑ λ j PX ( B j )
j
j =1 j =1
m ⎛ m ⎞
= ∑λj ∫ n 1B ( x ) dPX ( x ) = ∫ !n ⎜ ∑ λ j 1B j ( x ) ⎟ dPX ( x )
!
j =1
j
⎝ j =1 ⎠
=∫ n Ψ ( x ) dPX ( x )
!
On a donc ⎜
⎛
∫ Ω ( Ψ P , X )(ω ) = ∫ !n Ψ p ( x ) dPX ( x )
⎜ avec Ψ - Ψ
⎝ P
∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x ) .
Si Ψ est une application mesurable quelconque on utilise encore la
+ −
décomposition Ψ = Ψ − Ψ et Ψ = Ψ + + Ψ − .
+ −
Il est par ailleurs clair que ( Ψ , X ) = Ψ , X et ( Ψ , X ) = Ψ , X .
+ −
Il vient :
+
E Ψ , X = E (Ψ , X ) + E (Ψ , X ) = E Ψ+ , X + E Ψ− , X .
−
( ) ( )
C’est-à-dire d’après ce qui précède :
si Ψ ∈ L ( dPX ) alors Ψ , X
1
∈ L1 ( dP ) ).
+ −
En particulier E ( Ψ , X ) et E ( Ψ , X ) sont finis, et
(
E ( Ψ , X ) = E Ψ+ , X − E Ψ− , X ) ( )
=∫ Ψ + ( x ) dPX ( x ) − ∫ Ψ − ( x ) dPX ( x )
!n !n
=∫ Ψ ( x ) dPX ( x )
!n
EXEMPLES.–
⎛ 1 1 ⎞
f X ( x1 , x2 ) =
1
exp ⎜−
⎝ 2 1-ρ
2 (
x12 − 2 ρ x1 x2 + x22 ⎟ )
2π 1 − ρ 2 ⎠
La condition :
⎛ ⎞
∫! x1 x23
1
exp ⎜ −
1
(x
2
)
− 2 ρ x1 x2 + x22 ⎟ dx1 dx2 < ∞
2π 1 − ρ 2 ⎝ (
⎜ 2 1− ρ 2 ) 1
⎟
⎠
40 Processus stochastiques et filtrages optimaux
⎛ ⎞
EX1 X 23 = ∫ x x3
1
exp ⎜ − x 2
−
1
2 ρ x x (+ x 2 ⎟
dx dx )
! 2 1 2
2π 1 − ρ 2 ⎜ 2 1− ρ 2 1
⎝ ( )
1 2 2
⎟ 1 2
⎠
1 1
2) Soit une variable aléatoire de Cauchy de densité f X ( x ) =
π 1 + x2
1 1
donc X ∉ L ( dP )
π ∫ ! 1 + x2
1
x dx = +∞ et EX n’est pas définie.
x
−K 0 K
K 1 −K K ∞ K
∫ ! Ψ ( x ) dPX ( x ) = ∫ − K x 1 + x 2 dx + ∫ −∞ 1 + x 2 dx + ∫ K 1 + x2 dx
⎛π
( ) ⎞
= ln 1 + K 2 + 2 K ⎜ − K ⎟ < ∞
⎝2 ⎠
Donc Ψ , X ∈ L ( dP ) et :
1
Vecteurs aléatoires 41
⎛π
( ) ⎞
+∞
E (Ψ , X ) = ∫ Ψ ( x ) dPX ( x ) = ln 1 + K 2 + 2 K ⎜ − K ⎟ .
−∞ ⎝2 ⎠
⎛ EX 11 … EX1n ⎞
⎜ ⎟
E ⎡⎣ X jk ⎤⎦ = ⎜ " " ⎟.
⎜ EX p1 ( EX pn ⎟
⎝ ⎠
En particulier : étant donné un vecteur aléatoire :
⎛ X1 ⎞
⎜ ⎟
( )
X = ⎜ " ⎟ ou X T = ( X 1 ,..., X n ) vérifiant X j ∈ L1 ( dP ) ∀j = 1 à n
⎜X ⎟
⎝ n⎠
⎛ EX 1 ⎞
On pose E [ X ] =
⎜ ⎟
(
⎜ " ⎟ ou E ⎣ X ⎦ = ( EX1 ,..., EX n ) .
⎜ EX ⎟
⎡ T⎤ )
⎝ 2⎠
X ∈ L1 ( dP ) si X1 et X 2 ∈ L1 ( dP ).
E ( X ) = EX 1 + i EX 2 .
42 Processus stochastiques et filtrages optimaux
On suppose que α 1
est un C – difféomorphisme de D sur un ouvert ∆ de
! n , c’est-à-dire que α est bijective et que α et β = α −1 sont de classe C1.
α
X Y =α (X )
D ∆
PROPOSITION.–
fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y )
Vecteurs aléatoires 43
DÉMONSTRATION.–
Soit :
Ψ ∈ L1 ( dy ) E ( Ψ ( y )) = ∫ Ψ ( y ) fY ( y )1∆ ( y ) dy.
!n
Par ailleurs :
E ( Ψ ( Y ) ) = E Ψ (α ( X ) ) = ∫ Ψ (α ( x ) ) f X ( x )1D ( x ) dx.
!n
=∫ Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) dy.
!n
Finalement, l’égalité :
∫ ! n Ψ ( y ) fY ( y )1∆ ( y ) dy
= ∫ n Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) dy
!
cherchée :
fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) .
1
f Z ( x, y ) = 2 2
1D ( x, y ) où D = ]1, ∞[ × ]1, ∞[ ⊂ ! 2
x y
1
On se donne par ailleurs le C – difféomorphisme α :
défini par :
⎛ α : ( x, y ) → ( u = α1 ( x, y ) = xy , v = α 2 ( x, y ) = x y )
⎜ / $%%%%%%%
%&%%%%%%%%
'
∈D ∈∆
⎜
⎜
⎜
⎜⎜ / ($%%%%%%%%&%%%%%%%%')
β : ( u, v ) → x = β1 ( u, v ) = uv , y = β 2 ( u, v ) = u v
∈∆
⎝ ∈D
⎛ v u ⎞
1
⎜ u v ⎟ 1
J β ( u, v ) = ⎜ u⎟
⎟ et Dét J β ( u, v ) = .
2⎜ 1 − 3 2 v
⎜ uv ⎟
⎝ v 2⎠
(
Le vecteur W = U = X Y , V = X
Y ) admet donc la densité de probabilité :
Vecteurs aléatoires 45
fW ( u , v ) 1∆ ( u , v ) = f Z ( β1 ( u , v ) , β 2 ( u , v ) ) Dét J β ( u , v ) 1∆ ( u , v )
1 1 1 1
= 1∆ ( u , v ) = 1∆ ( u , v )
( ) ( )
2 2 2
uv u 2v 2u v
v
⎛ n ⎞
ϕ X ( u1 ,..., un ) = E exp ⎜ i ∑ u j X j ⎟
⎜ j =1 ⎟
⎝ ⎠
⎛ n ⎞
= ∫ n exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,...xn ) dx1... dxn
! ⎜ j =1 ⎟
⎝ ⎠
⎛ n ⎞
Ψ ( X 1 ,..., X n ) = exp ⎜ i ∑ u j X j ⎟
⎜ j =1 ⎟
⎝ ⎠
⎛ n ⎞
F ( f X )( u1 ,..., un ) = ∫
!n
exp ⎜⎜ − i ∑ u j x j ⎟⎟ f X ( u1 ,..., un ) dx1... dxn .
⎝ j =1 ⎠
1
f X ( x1 ,..., xn ) = 1∆ ( x1,..., xn )
2n
1
ϕ ( u1 ,..., un ) = exp i ( u1 x1 + ... + un xn ) dx1...dxn
2n ∫ ∆
n sin u
1 n +1
= n ∏ ∫ exp ( iu j x j ) dx j = ∏
j
2 j =1 −1 j =1 uj
où, dans cette dernière expression et grâce aux prolongements par continuité, on
remplace :
sin u1 sin u2
par 1 si u1 = 0 , par 1 si u2 = 0 ,...
u1 u2
Vecteurs aléatoires 47
F
fX F −1 ϕX
1 ⎛ n ⎞
f X ( x1 ,..., xn ) = ∫! n exp ⎜ −i
⎜ ∑ j j ⎟⎟ ϕ X
u x ( u1 ,..., un ) du1...dun
( 2π )n ⎝ j =1 ⎠
1 +∞
Il est clair que ϕ X ∈ L1 ( du ) et f X ( x ) = ∫ −∞ exp ( −iux ) ϕ X ( u ) du .
2π
48 Processus stochastiques et filtrages optimaux
1) Indépendance
DÉMONSTRATION.–
Condition nécessaire :
⎛ n ⎞
ϕ X ( u1 ,..., un ) = ∫
!n
exp
⎜ ∑
⎜ i u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn .
⎟
⎝ j =1 ⎠
Grâce à l’indépendance :
⎛ n ⎞ n n
= ∫ !n
exp
⎜∑
⎜i u j xj ⎟
⎟ ∏ j ( x j ) dx1... dxn = ∏ϕ X (u j ) .
fX j
⎝ j =1 ⎠ j =1 j =1
⎛ n ⎞
!n∫exp
⎜ ∑
⎜ i u j x j ⎟ f x ( x1 ,..., xn ) dx1... dxn
⎟
⎝ j =1 ⎠
⎛ n ⎞
! ∫ ⎜ ∑
= n exp ⎜ i u j x j ⎟
⎟ ∏ ( )
f X x j dx1... dxn
j
⎝ j =1 ⎠
n
D’où on déduit : f X ( x1 ,..., xn ) = ∏ f X j ( x j ) , c’est-à-dire l’indépendance,
j =1
n
Si X 1 ,..., X n sont des v. a. indépendantes alors ϕ∑ X
j
(u ) = ∏ϕ X j (u )
j j =1
( )
X 1 ∼ Ν m1 , σ 2 ,..., X n ∼ Ν mn , σ 2 ( )
et soient n constantes réelles λ1 ,..., λn.
n
La remarque nous permet de déterminer la loi de la valeur aléatoire ∑λj X j .
j =1
n n n 1
iuλ j m j − u 2 λ 2j σ 2j
ϕ∑
λ X
( u ) = ∏ ϕλ j X j ( u ) = ∏ ϕ X j λ j u = ∏ e( ) 2
j j j j =1 j =1 j =1
1
iu ∑ λ j m j − u 2 ∑ λ 2j σ 2j
2
=e j j
n ⎛ ⎞
donc ∑ λ j X j ∼ Ν ⎜ ∑ λ j m j , ∑ λ 2j σ 2j ⎟ .
⎜ ⎟
j =1 ⎝ j j ⎠
Supposons ϕ X ∈ C 2 !n . ( )
En appliquant une fois le théorème de Lebesgue de dérivation sous signe somme
(dont les hypothèses sont immédiates à vérifier) il vient :
50 Processus stochastiques et filtrages optimaux
∂ϕ X
∀K = 1 à n ( 0,..., 0 )
∂u X
⎛ ⎛ ⎞ ⎞
= ⎜ ∫ n ixK exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn ⎟
⎜ ! ⎜ j ⎟ ⎟
⎝ ⎝ ⎠ ⎠( u1 = 0,...,un = 0 )
= i∫ xK f X ( x1 ,..., xn ) dx1...dxn = i E X K
!n
∂ϕ X
Soit E X K = −i ( 0, ..., 0 ) .
∂u K
∂ 2ϕ X
∀ k et 2 ∈ (1, 2, ..., n ) EX K X 2 = ( 0,..., 0 ).
∂u2 ∂uK
Var X = E X − ( E X ) = E ( X − E X ) .
2 2 2
E X Y = < X , Y > = ∫ X (ω ) Y (ω ) dP (ω )
Ω
Vecteurs aléatoires 51
E XY =∫ xy f Z ( x, y ) dx dy.
!2
L’expression Cov ( X , Y ) = E X Y − E X E Y .
Cov ( X , X ) = V ar X
Cov ( X , Y ) = Cov (Y , X )
Coefficients de corrélation
(
Les Var X j (toujours positives) et les Cov X j , X K ) (de signe quelconque)
peuvent prendre des valeurs algébriques très élevées. On préfère parfois utiliser les
« coefficients de corrélation » (normalisés) :
Cov ( X j , X K )
ρ ( j, k ) =
Var X j Var X K
1) ρ ( j , k ) ∈ [ −1,1]
Τ ( λ ) = E ( λ X j − X K ) = λ 2 EX 2j − 2λ E ( X j X K ) + E X K2 ≥ 0
2
Τ ( λ ) ≥ 0 ∀λ ∈ ! si et seulement si le discriminant :
( )
2
∆ = E X jXK − E X 2j E X K2
( )
2
est négatif ou nul, soit Cov X j , X K ≤ Var X j Var X K (c’est-à-dire
ρ ( j , k ) ∈ [ −1,1] ).
( )
Cov X j , X k = 0 et ρ ( j , k ) = 0
Mais la réciprocité est fausse dans le cas général comme le prouve l’exemple
suivant.
Vecteurs aléatoires 53
( )
Cov X j , X k et ρ ( j , k ) sont nuls. Cependant X j 2 + X k 2 = 1 et les v.a. X j
et X k sont dépendantes.
symétrique :
⎛ Var X1 … Cov ( X 1 , X n ) ⎞
⎜ ⎟
ΓX = ⎜ " " ⎟
⎜ Cov ( X , X ) ( Var X ⎟
⎝ n 1 n ⎠
X 2 ∈ L2 ( dP ) .
54 Processus stochastiques et filtrages optimaux
⎛ E X 1 2 … EX 1 X n ⎞
⎜ ⎟
ΓX = ⎜ " " ⎟
⎜⎜ 2⎟⎟
⎝ EX n X 1 ( E X n ⎠
Si l’on ne craint pas les lourdeurs d’écriture, on peut sans difficulté écrire ces
définitions pour des variables et vecteurs aléatoires complexes non centrés.
PROPOSITION.– Soit X
T
= ( X1 ,..., X n ) un vecteur aléatoire de vecteur espérance
mT = ( m1 ,..., mn ) et de matrice de covariance Γ X .
BT = ( b1 ,..., bP ) .
DÉMONSTRATION.–
E [Y ] = E [ AX + B ] = E [ AX ] + B = Am + B.
Τ
E ⎡( AX ) ⎤ = E ⎡⎣ X Τ AΤ ⎤⎦ = mΤ AΤ
⎣ ⎦
ΓY = Γ AX +Β = Γ AX = E ⎡⎢ A ( X − m ) ( A ( X − m ) ) ⎤⎥ =
Τ
⎣ ⎦
Τ Τ
E ⎡ A ( X − m )( X − m ) AΤ ⎤ = A E ⎡( X − m )( X − m ) ⎤ AΤ = AΓ X AΤ
⎣ ⎦ ⎣ ⎦
dans la suite, nous aurons aussi besoin du résultat facile suivant.
PROPOSITION.– Soit X
T
= ( X 1 ,..., X n ) un vecteur aléatoire du 2e ordre, de
matrice de covariance Γ Χ .
Alors :
⎛ n ⎞
∀ ΛT = ( λ1 ,..., λn ) ∈ ! n Λ Τ Γ X Λ = var ⎜ ∑ λ j X j ⎟ .
⎜ j =1 ⎟
⎝ ⎠
56 Processus stochastiques et filtrages optimaux
DÉMONSTRATION.–
(
Λ ΤΓ X Λ = ∑ Cov X j , X K λ j λK = ∑ E
j,K
)
j,K
(( X j − EX j ) ( X K − EX K ) )λ j λK
2 2
⎛ ⎞ ⎛ ⎛ ⎞⎞ ⎛ ⎞
⎜ j (
= E ⎜ ∑ λ j X j − EX j ) ⎟⎟ = E ⎜ ∑ λ j X j − E ⎜⎜ ∑ λ j X j ⎟⎟ ⎟ = Var ⎜⎜ ∑ λ j X j ⎟⎟
⎜ j ⎟
⎝ ⎠ ⎝ ⎝ j ⎠⎠ ⎝ j ⎠
n Τ
CONSÉQUENCE.– ∀Λ ∈ ! on a toujours Λ Γ Χ Λ ≥ 0 .
REMARQUE.– Dans cet ouvrage la notion de vecteur apparaît dans deux contextes
différents et afin d’éviter certaines confusions, revenons, en insistant, sur quelques
points de vocabulaire.
n
1) On appelle vecteur aléatoire de ! (ou vecteur aléatoire à valeurs dans
⎛ X1 ⎞
⎜ ⎟
! ), tout n-uple de variables aléatoires X = ⎜ " ⎟
n
⎜X ⎟
⎝ n⎠
( ou X = ( X1 ,..., X n ) ou meme
T
ˆ X = ( X 1 ,..., X n ) ) .
n
2) On appelle vecteur aléatoire du second ordre, tout vecteur aléatoire de !
X = ( X 1 ,..., X n ) dont toutes les composantes X j appartiennent à L2 ( dP ) .
Vecteurs aléatoires 57
X 1 (ω ) = ω X 1 (ω ) = e
− (ω −1)
⎫ ⎫
⎪ ⎪⎪
X 2 (ω ) = 2ω ⎬ sur [ 0,1[ et X 2 (ω ) = 2 ⎬ sur [1, 2[
⎪ ⎪
X 3 (ω ) = 3ω ⎭ X 3 (ω ) = −2ω + 5⎪⎭
58 Processus stochastiques et filtrages optimaux
ce sont 3 vecteurs de L ( dω ) .
2
[ [
Ces 3 vecteurs sont linéairement dépendants car sur A = 0,1 de mesure de
1
probabilité : −5 X 1 ( ω ) + 1 X 2 ( ω ) + 1 X 3 ( ω ) = 0 ∀ω ∈ A .
2
En effet :
2
⎛ ⎞ ⎛ ⎛ ⎞⎞
Λ Γ X Λ = Var ⎜ ∑ λ j X j ⎟ = E ⎜ ∑ λ j X j − E ⎜ ∑ λ j X j ⎟ ⎟
T
⎜ j ⎟
⎝ j ⎠ ⎝ ⎝ j ⎠⎠
Vecteurs aléatoires 59
2
⎛ ⎞
= E⎜
⎜ ∑ λ j ( X j − EX j ) ⎟ =0
⎟
⎝ j ⎠
C’est-à-dire :
∑ λ j ( X j − EX j ) = 0 p.s.
j
ΛT Γ X Λ = ∑ Var X j .λ j2 = 0 ⇒ λ1 = ( = λn = 0
j
donc dans ce cas Γ X est définie positive et X 1 ,..., X n sont encore linéairement
* *
indépendantes.
T
REMARQUE.– Si E X X , la matrice des moments d’ordre 2, est définie positive
alors X 1 ,..., X n sont des vecteurs linéairement indépendants de L ( dP ) .
2
X 1* = X 1 − EX 1 , . . . , X n* = X n − EX n
En effet :
∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 )
60 Processus stochastiques et filtrages optimaux
⎛ ⎞
( )
tel que : Λ Γ X Λ = Var ⎜
T
∑λ j Xj⎟=0
⎝ j ⎠
C’est-à-dire :
⎛ X1 ⎞
⎜ ⎟
Exemple : on considère X = X 2 un vecteur aléatoire
3
de ! du 2e ordre,
⎜ ⎟
⎜X ⎟
⎝ 3⎠
⎛ 3⎞ ⎛4 2 0⎞
⎜ ⎟ ⎜
admettant m = −1 pour vecteur espérance et Γ X = 2 1
⎟
0 pour matrice
⎜ ⎟ ⎜ ⎟
⎜ 2⎟ ⎜0 0 3 ⎟⎠
⎝ ⎠ ⎝
Vecteurs aléatoires 61
( X1 − 2 X 2 + 0 X 3 ) = 0 et X 1 − 2 X 2 = 0
* *
p.s.
Soit X une v.a. réelle et soit Y = (Y1 ,..., Yn ) un vecteur aléatoire réel. On
suppose que : X et Y sont indépendants et que le vecteur
Z = ( X , Y1 ,..., Yn ) admet une densité de probabilité f Z ( x, y1 ,..., yn ) .
Dans ce paragraphe on emploiera selon les cas les notations (Y1 ,..., Yn ) ou
Y , ( y1 ,..., yn ) ou y.
Probabilité conditionnelle
( )
simplement P X ∈ B y1 ,..., yn . Notons qu’on ne peut pas, comme le cas des
variables discrètes, écrire :
(
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )
(
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) = ) P ( (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )
0
Le quotient ici est indéterminé et égale
0
62 Processus stochastiques et filtrages optimaux
Pour j = 1 à n , posons I j = ⎡⎣ y j , y j + h ⎡⎣
On écrit :
(
P ( X ∈ B y1 ,..., yn ) = lim P ( X ∈ B ) (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n )
h →0
)
P ( ( X ∈ B ) ∩ (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) )
= lim
h→0 P ( (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) )
∫ B f Z ( x, y ) dx = f Z ( x, y ) dx
=
fY ( y ) ∫ B fY ( y )
de densités de probabilités f ( x y ) (∫ !
)
f ( x y ) dx = 1 .
Espérance conditionnelle
( ) (
conditionnelle f x y = f x y1 ,..., yn et on écrit : )
E ( Ψ ( X ) y1 ,..., yn ) = ∫ Ψ ( x ) f ( x y ) dx .
!
C’est-à-dire gˆ ′ (Y1 ,..., Yn ) = gˆ (Y1 ,..., Yn ) sauf éventuellement sur Α tel que
P ( Α ) = ∫ fY ( y ) dy = 0 .
Α
DÉMONSTRATION.–
∫ ! gˆ ( y ) f ( y ) dy = ∫ ! E ( Ψ ( X ) y ) fY ( y ) dy
n n
= ∫ fY ( y ) dy ∫ Ψ ( X ) f ( x y ) dx
n
! !
∫ ! Ψ ( x ) fY ( y ) f ( x y ) dx dy = ∫ ! Ψ ( x ) f Z ( x, y ) dx dy
n+1 n+1
= ∫ Ψ ( x ) dx ∫ f Z ( x, y ) dy = ∫ Ψ ( x ) f X ( x ) dx < ∞
n
! ! !
1)
(
2) Si X et Y sont indépendants E Ψ ( X ) Y = E Ψ ( X ) ) ( )
( )
3) E Ψ ( X ) X = Ψ ( X )
4) Conditionnements successifs
( )
E E ( Ψ ( X ) Y1 ,..., Yn , Yn +1 ) Y1 ,..., Yn = E ( Ψ ( X ) Y1 ,..., Yn )
5) Linéarité
E ( λ1Ψ1 ( X ) + λ2 Ψ 2 ( X ) Y ) = λ1E ( Ψ1 ( X ) Y ) + λ2 E ( Ψ 2 ( X ) Y )
Vecteurs aléatoires 65
( )
Calculons E X Y . On a successivement :
y ∈ [ 0,1]
1 1
– f ( y) = ∫ 0 f ( x, y ) dx = ∫ 0 6 xy ( 2 − x − y ) dx avec
soit f ( y ) = ( 4 y − 3 y 2 )1[0,1] ( y )
f ( x, y ) 6 x ( 2 − x − y )
– f ( x y) = = 1[0,1] ( x ) avec y ∈ [ 0,1]
f ( y) 4 − 3y
Donc :
5 − 4Y
E(X Y) = 1 0,1 (Y ) .
2 ( 4 − 3Y ) [ ]
On a aussi :
( )
E ( X ) = E E ( X Y ) = ∫ E ( X y ) f ( y ) dy
1
0
5 − 4y
( 4 y − 3 y ) dy 7
1
=∫ 2
=
0 2(4 − 3y) 12
66 Processus stochastiques et filtrages optimaux
Enoncé 1.1.
⎛0 si x<0
⎜
1
F ( x) = ⎜ si 0≤x≤2
⎜2
⎜1 si x>2
⎝
( ) (
P X 2 ≤ X ; P X ≤ 2X 2 ; P X + X 2 ≤ 3) ( 4 )
Enoncé 1.2.
Enoncé 1.3.
Enoncé 1.4.
Solution 1.4.
Donc FU ( u ) = ∫B f( X ,Y ) ( x, y ) dx dy = ∫ f X ( x ) fY ( y ) dx dy
u Bu
68 Processus stochastiques et filtrages optimaux
1 u 1 dx
= ∫ dx dy + ∫ dx ∫ x
dy = u + u ∫ = u (1 − 2n u )
A u 0 u x
⎛ 0 si x ∈ ]-∞,0] ∪ [1, ∞[
Finalement fU ( u ) = FU′ ( u ) = ⎜
⎜ − 2n u
⎝ x ∈ ]0,1[
Enoncé 1.5.
( )
1
Déterminer la densité de probabilité fU de la v.a.r. U = X 2 + Y 2 + Z 2 2
.
Solution 1.5.
⎛ ⎞
( )
1
– si u ≤ 0 FU ( u ) = P ⎜ X 2 + Y 2 + Z 2 2
≤ u⎟ = 0
⎝ ⎠
– si u > 0 FU ( u ) = P ( ( X + Y + Z ) ∈ Su )
= ∫ f( X ,Y , Z ) ( x, y, z ) dx dy dz
Su
⎛ 1
=
1
3 ∫Su exp ⎜⎝ − 2 ( x
2
) ⎞⎠
+ y 2 + z 2 ⎟ dx dy dz
( 2π ) 2
Vecteurs aléatoires 69
1 eπ π u ⎛ 1 ⎞ 2
∫0 dθ ∫ 0 dϕ ∫ 0 exp ⎜⎝ − 2 r ⎟ r sin ϕ dr
2
=
( 2π )
3
2 ⎠
1 u ⎛ 1 ⎞
= 2π ⋅ 2 ∫ r 2 exp ⎜ − r 2 ⎟ dr
( 2π )
3
2
0
⎝ 2 ⎠
2 ⎛ 1 2⎞
et comme r → r exp ⎜ − r ⎟ est continue :
⎝ 2 ⎠
⎛ 0 si u < 0
fU ( u ) = ⎜⎜ 2 ⎛ 1 ⎞
⎜ FU′ ( u ) = u 2 exp ⎜ − u 2 ⎟ si u ≥ 0
⎝ 2π ⎝ 2 ⎠
Enoncé 1.6.
1 a
1a) Vérifier que ∀a>0 fa ( x ) = est une densité de
π a + x2 2
Enoncé 1.7.
⎛1 2 3⎞
⎜ ⎟
Montrer que M = 2 1 2 n’est pas une matrice de covariance.
⎜ ⎟
⎜3 2 1⎟
⎝ ⎠
⎛ 1 0, 5 0 ⎞
⎜
Montrer que M = 0, 5 1
⎟
0 est une matrice de covariance.
⎜ ⎟
⎜ 0 ⎟
⎝ 0 1 ⎠
Vérifier sur cet exemple que la propriété « n’être pas corrélé avec » pour une
famille de v.a. n’est pas transitive.
Enoncé 1.8.
⎛ 10 −1 4 ⎞
ΕX = ( 7, 0,1) et de matrice de covariance Γ X = ⎜ −1 1 −1 ⎟ appartient
T
⎜ ⎟
⎜ 4 −1 2 ⎟
⎝ ⎠
3
presque sûrement (p.s.) à un plan de ! .
Enoncé 1.9.
Vecteurs gaussiens
1 ⎛ ( x − m )2 ⎞
– admet la densité f X ( x ) = exp ⎜ − ⎟ si σ 2 ≠ 0
2π σ ⎜ 2σ 2 ⎟
⎝ ⎠
(par un calcul d’intégrale double par exemple, on vérifie que ∫ f X ( x ) dx = 1) ;
!
2
EX = m, Var X = σ . Ceci se vérifie facilement par utilisation de la fonction de
répartition.
Comme on l’a déjà noté, pour spécifier qu’une v.a. X est gaussienne
d’espérance m et de variance σ 2
, on écrira X ∼ N m, σ ( 2
).
Fonction caractéristique de X ∼ N m, σ ( 2
)
Commençons d’abord par déterminer la fonction caractéristique
de X 0 ∼ N ( 0,1) :
( ) 1 − x2
ϕ X ( u ) = E eiuX = 0
∫! eiux e 2 dx .
2π
0
On voit facilement que l’on peut appliquer le théorème de dérivation sous signe
somme et :
i − x2
ϕ ′X ( u ) = ∫! eiux xe 2 dx .
0
2π
i ⎡⎛ iux − x 2 ⎞ +∞ +∞ − x2 ⎤
⎢⎜ −e e 2 ⎟ + ∫ iue e 2 dx ⎥ = − uϕ X 0 ( u ).
iux
=
2π ⎢⎣⎝ ⎠ −∞ −∞
⎥⎦
2
1 ⎛ x −m ⎞
+∞ iux − 2 ⎜ σ ⎟
Pour X ∼ N m, σ ( 2
) ϕ X (u ) =
1
2π σ
∫ −∞
e e ⎝ ⎠
dx .
x−m
Par le changement de variable y = qui nous ramène au cas précédent, on
σ
1
ium − u 2σ 2
obtient ϕ X (u ) = e 2 .
Si σ2 =0 c’est-à-dire si PX = δ m :
1
ium − u 2σ 2
si bien que dans tous les cas (σ 2
≠ ou = 0 ) ϕ X (u ) = e 2 .
⎛
ϕ X ( u ) = exp ⎜ ium − u σ u ⎟
1 2 ⎞
⎝ 2 ⎠
Ce sont les écritures que l’on retrouvera pour les vecteurs gaussiens.
Un vecteur aléatoire X
T
= ( X 1 ,..., X n ) n’est donc pas gaussien si on peut
n
trouver un n -uple ( a1 ,..., an ) ≠ ( 0,..., 0 ) tel que la v.a. ∑ a j X j ne soit pas
j =1
n
gaussienne et il suffit pour cela de trouver un n - uple tel que ∑ a j X j ne soit pas
j =1
une v.a. à densité.
1 1
P ( ε = 1) = et P ( ε = −1) = .
2 2
On pose Y = ε X.
En utilisant ce qui précède, on montrera en exercice que, bien que Y soit une
v.a. N ( 0,1) , le vecteur ( X , Y ) n’est pas un vecteur gaussien.
⎛ m ⎞
⎜ j =1
1
ϕ X ( u1 ,..., un ) = exp ⎜ i ∑ u j m j − uT Γ X u ⎟
2 ⎟ ( où u T
)
= ( u1 ,..., un ) .
⎝ ⎠
DÉMONSTRATION.–
⎛ n ⎞ ⎛ n ⎞
ϕ X ( u 1,..., u n ) = E exp ⎜ i ∑ u j X j ⎟ = E exp ⎜ i.1.∑ u j X j ⎟
⎜ ⎟ ⎜ ⎟
⎝ j =1 ⎠ ⎝ j =1 ⎠
n
= fonction caractéristique de la v.a. ∑u j X j en la valeur 1.
j =1
Vecteurs gaussiens 75
C’est-à-dire : ϕn (1)
∑
j =1
u jX j
⎛ ⎛ n ⎞ 1 ⎛ n ⎞⎞
et ϕ n (1) = exp ⎜⎜ i.1.E ⎜⎜ ∑ u j X j ⎟⎟ − 2
⎜∑
1 Var ⎜ u j X j ⎟⎟
⎟⎟
∑u j X j ⎝ ⎝ j =1 ⎠ 2 ⎝ j =1 ⎠⎠
j =1
n
si et seulement si la v.a. ∑u j X j est gaussienne.
j =1
⎛ n ⎞
Enfin, puisque Var ⎜ ∑
⎜ j =1
u j X j ⎟ = u T Γ X u , on a bien :
⎟
⎝ ⎠
⎛ n
1 ⎞
ϕ X ( u 1,..., u n ) = exp ⎜ i ∑ u j m j − u T Γ X u ⎟.
⎜ 2 ⎟
⎝ j =1 ⎠
PROPOSITION.–
1) si le vecteur X
T
= ( X 1 ,..., X n ) est gaussien, toutes ses composantes X j
sont alors des v.a. gaussiennes ;
DÉMONSTRATION.–
n n
⎛ 1 2 2⎞
2) ϕ X ( u 1,..., u n ) = ∏ ϕ X ( u j ) ∏ exp ⎜ iu j m j − u jσ j ⎟
=
j =1
j
j =1 ⎝ 2 ⎠
⎛ n
1 ⎞
que l’on peut encore écrire : exp ⎜ i
⎜ ∑ u j m j − 2 u T Γ X u ⎟⎟
⎝ j =1 ⎠
⎛σ 2
1
0 ⎞
⎜
avec Γ X = ⎜ # .
⎜ 0 2
σn ⎠
⎝
PROPOSITION.– Si X
T
( )
= X 1 ,..., X j ,..., X n est un vecteur gaussien de matrice
de covariance Γ X , on a l’équivalence : Γ X diagonale ⇔ les v.a. X j sont
indépendantes.
DÉMONSTRATION.–
⎛ σ 12 0 ⎞
⎜ ⎟ n
ΓX = ⎜ # ⎟ ( j)
⇔ ϕ X ( u 1,..., u n ) = ∏ ϕ X j u
⎜ 0 2 ⎟
σn ⎠
j −1
⎝
(
X T = X 1 ,..., X j ,..., X n ) Les composantes Xj
est un vecteur gaussien sont des v.a. gaussiennes
Si (condition suffisante)
Même si
les Xj sont
ΓX
indépendantes est diagonale
( Xj indépendantes ( X j indépendantes ou
⇔ ΓX est diagonale) X est gaussien)
⎛ −( x − m ) ⎞
2
⎜ x 1 2σ 2 dx < ∞ ⎟
L2 ( dP )
⎜ ∫!
2
e
2πσ ⎟
⎝ ⎠
(
X T = X ,..., X
1 n ) ; Y = (Y ,..., Y ) ; Z = ( X ,..., X , Y ,..., Y )
T
1 p
T
1 n 1 p
⎛ ΓX $ Cov( X , Y ) ⎞
⎜ ⎟
et posons Γ Z =
⎜ % $ %
⎟
⎜ Cov(Y , X ) $ Γ ⎟
⎝ Y ⎠
PROPOSITION.– Si Z
T
(
= X 1 ,..., X n , Y1 ,..., Yp ) est un vecteur gaussien de
matrice de covariance Γ Z , on a l’équivalence :
Cov ( X , Y ) = matrice nulle ⇔ X et Y sont 2 vecteurs gaussiens indépendants.
DÉMONSTRATION.–
⎛ ΓX $ ⎞ 0
⎜ ⎟
ΓZ = ⎜ % $ % ⇔
⎟
⎜ 0 $ ΓY ⎟⎠
⎝
⎛ n+ p ⎛ ΓX $ 0 ⎞ ⎞
⎜ 1 T⎜ ⎟ ⎟
ϕ Z ( u 1 ,..., u n, u n +1,..., u n + p ) = exp ⎜ i ∑ u j m j − u ⎜ % $ % ⎟u ⎟
2 ⎜
⎜ j =1
⎝ ⎝ 0 $ ΓY ⎠⎟ ⎠⎟
( )
= ϕ X ( u 1,..., u n ) ϕY u n +1,..., u n + p … Ce qui est une condition nécessaire et
suffisante d’indépendance des vecteurs X et Y.
ATTENTION.– Soit Z
T
( )
= X T , Y T , U T ,... où X , Y ,U ,... sont des v.a. ou des
vecteurs aléatoires.
– Z est un vecteur gaussien est une hypothèse plus forte que
– X gaussien et Y gaussien et U gaussien…
– X gaussien et Y gaussien et U gaussien… et leurs covariances (ou
matrices de covariances) sont nulles ⇒ que Z
T
( )
= X T , Y T , U T ,... est un
vecteur gaussien.
W T = (U ,V ) ou U = X + Y + Z et V = λ X − Y avec λ ∈ ! : à cause de
l’indépendance, le vecteur ( X , Y , Z ) est gaussien et
∀a, b ∈ ! aU + bV = ( a + λ b ) X + ( a − λ b ) Y + aZ est une v.a. gaussienne.
Donc W
T
= (U ,V ) est un vecteur gaussien.
Vecteurs gaussiens 79
Il vient facilement :
EW T = ( EU , EV ) = ( 0, 0 ) et
⎛ Var U Cov (U , V ) ⎞ ⎛ 3 λ −1 ⎞
ΓW = ⎜ ⎟=⎜ ⎟
⎝ Cov (V ,U ) ⎠ ⎝ λ − 1 λ + 1⎠
2
Var V
En effet :
= EU 2 = E ( X + Y + Z ) = EX 2 + EY 2 + EZ 2 = 3
2
Var U
EV 2 = E ( λ X − Y ) = λ 2 EX 2 + EY 2 = λ 2 + 1
2
Var V =
Cov (U ,V ) = E ( X + Y + Z )( λ X − Y ) = λ EX 2 − EY 2 = λ − 1
Cas particulier : λ = 1 ⇔ ΓW diagonale ⇔ U et V sont indépendants.
On peut généraliser aux vecteurs le résultat suivant sur les v.a. gaussiennes :
Si Y ∼ N m, σ( 2
) alors ∀a, b ∈ ! (
aY + b ∼ N am + b, a 2σ 2 . )
En modifiant un peu l’écriture,
( )
N am + b, a 2σ 2 devenant N ( am + b, a VarY a ), on imagine déjà comment
ce résultat va s’étendre aux vecteurs gaussiens.
DÉMONSTRATION.–
⎛ $ ⎞
⎛ a11 % a1n ⎞ ⎛ Y1 ⎞ ⎛ b1 ⎞ ⎜ ⎟
⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ $ ⎟
⎜ $ $ $
⎟⎜ $ ⎟ ⎜ ⎟ ⎜ n ⎟
AY + B = ⎜ a&1 % a&i % a&n ⎟ ⎜ Yi ⎟ + ⎜ b& ⎟ = ⎜ ∑ a&iYi + b& ⎟
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ $ $ ⎟ ⎜ $ ⎟ ⎜ $ ⎟ ⎜ i =1 ⎟
⎜ $ ⎟
⎜ a p1 % a ⎟ ⎜Y ⎟ ⎜ b ⎟ ⎜ ⎟⎟
⎝ pn ⎠ ⎝ n ⎠ ⎝ p ⎠ ⎜
⎝ $ ⎠
– ceci est bien un vecteur gaussien (de dimension p ) car toute combinaison
linéaire de ses composantes est une combinaison affine des v.a. Y1 ,..., Yi ,..., Yn et
par hypothèse Y
T
= (Y1 ,..., Yn ) est un vecteur gaussien ;
– par ailleurs on a vu que si Y est un vecteur de 2e ordre :
E ( AY + B ) = AEY + B = Am + B et Γ AY + B = AΓY AT .
Il vient Y
T
= (Y0 , Y1 ,..., Yn ) ∼ N n +1 ( m, ΓY ) avec mT = ( µ ,..., µ ) et
⎛σ 2 0 ⎞
⎜ ⎟
ΓY = ⎜ # ⎟.
⎜ 0 2 ⎟
σ ⎠
⎝
X1 = Y0 + Y1 ,..., X n = Yn −1 + Yn
⎛ X 1 ⎞ ⎛ 110...0 ⎞ ⎛ Y0 ⎞
⎜ ⎟ ⎜ ⎟⎜ ⎟
Le vecteur X
T
= ( X 1 ,..., X n ) est gaussien car
⎜ $ ⎟ = ⎜ 0110..0 ⎟ ⎜ $ ⎟
⎜ X ⎟ ⎜ 0...011 ⎟ ⎜ Y ⎟
⎝ n⎠ ⎝ ⎠⎝ n ⎠
constatons que le vecteur X est gaussien bien que ses composantes X j ne soient
pas indépendantes. En effet, nous avons par exemple :
EX 1 EX 2 = E (Y0 + Y1 ) E (Y1 + Y2 ) = 0.
NOTATION.– u = ( u 1,..., u
T
n ) , xT = ( x1 ,..., xn ) et mT = ( m1 ,..., mn ).
⎛ 1 T ⎞
exp ⎜ i
⎜ ∑ j j 2
u m − u Γ u ⎟⎟
⎝ j ⎠
⎛ n ⎞ ⎛ n 1 T ⎞
∫! n
exp ⎜ i
⎜ ∑ j j⎟ X 1 n
u x ⎟ dP ( x ,..., x ) = exp
⎜ ∑
⎜ i u j m j −
2
u Γu ⎟ .
⎟
⎝ j =1 ⎠ ⎝ j =1 ⎠
En outre :
1) si Γ est inversible, PX admet sur ! n la densité :
⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞ ;
1
f X ( x1 ,..., xn ) = n 1
exp ⎜ −
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠
82 Processus stochastiques et filtrages optimaux
2) si Γ est non inversible (de rang r < n ) les v.a. X 1 − m1 ,..., X n − mn sont
linéairement dépendantes. On peut encore dire que ω → X (ω ) − m prend
presque sûrement ses valeurs sur un hyperplan ( Π ) de !
n
ou que la probabilité
PX charge un hyperplan ( Π ) et n’est donc pas à densité dans ! n .
DÉMONSTRATION.–
Quelques conséquences
⎛λ 1 ⎞0
⎜ ⎟
Posons d’abord Λ = ⎜ # ⎟ et V = (V1 ,..., Vn ) .
⎜ ⎟
⎝ 0 λn ⎠
⎛u1⎞
⎜ ⎟
s’écrit u → ( u 1,..., u n ) Λ $ = ∑ λ j u j ≥ 0 d’où le résultat annoncé.
2
⎜ ⎟
⎜u ⎟ j
⎝ n⎠
2) Plaçons nous d’abord dans le cas général, c’est-à-dire celui dans lequel
Γ est non nécessairement inversible (c’est-à-dire encore que les valeurs propres λ j
sont ≥ 0).
(
X ∼ N m , Γ = V ΛV T . )
L’existence des vecteurs gaussiens d’espérance et de matrice de covariance
donnée est donc bien prouvée.
⎛ 1 ⎞
(transformée de Fourier de sa loi) est : exp ⎜ i
⎜ ∑ u j m j − 2 uT Γu ⎟⎟.
⎝ j ⎠
On a donc bien :
⎛ 1 T ⎞
∫! n
exp (i∑ u x ) dP
j j X ( x1 ,..., xn ) = exp ⎜⎜ i ∑ u j m j −
2
u Γu ⎟ .
⎟
⎝ j ⎠
84 Processus stochastiques et filtrages optimaux
n
1 ⎛ y 2j ⎞
fY ( y1 ,..., yn ) = ∏ exp ⎜ − ⎟
2πλ j ⎜ 2λ j ⎟
j =1 ⎝ ⎠
1 ⎛ 1 T −1 ⎞
= 1
exp ⎜ − y Λ y⎟
n ⎛ n ⎞ 2 ⎝ 2 ⎠
( 2π ) 2 ⎜⎜ ∏ λ j ⎟⎟
⎝ j =1 ⎠
n
Par ailleurs ∏ λ j = Det Λ = Det Γ .
j =1
f X ( x1 ,..., xn ) = f X ( x ) = fY V −1 ( x − m ) = ( )
↑ ↑ ↑
notation théorème on explicite
⎛ 1
( ) ⎞
1 −1
n 1
exp ⎜ − ( x − m )T V T Λ −1V −1 ( x − m ) ⎟
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠
T
Comme Γ = V ΛV :
Vecteurs gaussiens 85
⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞⎟ ;
1
f X ( x1 ,..., xn ) = n 1
exp ⎜ −
( 2π ) 2 ( Det Γ ) 2 ⎝ 2 ⎠
EΨ ( X ) = ∫ Ψ ( x ) f X ( x ) dx =
!n
Dans le cas général, la densité f X et par suite le calcul proposé, sont rendus
complexes par la dépendance des v.a. X 1 ,..., X n .
On a X = VY + m avec Y
T
= (Y1 ,..., Yn ) , les Y j étant indépendantes et
( )
∼ N 0, λ j et le calcul proposé peut s’effectuer sous la forme plus simple :
⎛ n −yj ⎞
2
⎜
E Ψ ( X ) = E Ψ (VY + m ) = ∫ n Ψ (Vy + m ) ⎜ ∏
1 2λ
e j ⎟ dy ...dy .
⎟ 1 n
⎜ j =1 2πλ j
!
⎟
⎝ ⎠
EXEMPLES.–
⎛1 ρ⎞
où Γ X = ⎜ ⎟ avec ρ ∈ ]−1,1[ .
⎝ρ 1⎠
Γ X est inversible et :
⎛ 1 ⎞
f X ( x1 , x2 ) =
1
exp ⎜ −
⎝ 2 1− ρ
1
2 (x
2
1 )
− 2 ρ x1 x2 + x22 ⎟ .
2π 1 − ρ 2 ⎠
fx 1
2π 1 − ρ 2
0
x1 x2
⎜q 0 1⎟
⎝ ⎠
Vecteurs gaussiens 87
( Cov ( X1, X 2 ) )
2
A cause de l’inégalité de Schwarz ≤ Var X 1 Var X 2 on
doit supposer q ≤ 3.
Valeurs propres de Γ :
3−λ 0 q
Det ( Γ − λΙ ) = 0 1− λ 0 (
= (1 − λ ) λ − 4λ + 3 − q
2 2
)
q 0 1− λ
λ1 = 2 + 1 + q 2 , λ2 = 1 , λ3 = 2 − 1 + q 2
a) si q < 3 alors λ1 > λ2 > λ3 , Γ est inversible et X a une densité de
probabilité dans ! donnée par :
3
⎛ 1
( x − m )T Γ −1 ( x − m ) ⎞⎟ ;
1
f X ( x1 , x2 , x3 ) = 3 1
exp ⎜ −
( 2π ) 2 ( λ1λ2λ3 ) 2 ⎝ 2 ⎠
b) q = 3 alors λ1 = 4 ; λ2 = 1 ; λ3 = 0 et Γ est non inversible de rang 2.
⎛ 3 ⎞ ⎛− 1 ⎞
⎜ 2⎟ ⎛0⎞ ⎜ 2⎟
V1 = ⎜ 0 ⎟ , V2
⎜ ⎟
= 1 , V3 = ⎜ 0 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜0⎟
⎜⎜ 1 ⎟⎟ ⎝ ⎠ ⎜⎜ 3 ⎟⎟
⎝ 2 ⎠ ⎝ 2⎠
⎛ 3 0 −1 ⎞ Y
⎛ X1 ⎞ ⎜ 2 2 ⎟⎛ 1 ⎞ ⎛ 1 ⎞
⎜ ⎟
X = X2 = ⎜ 0 1 0 ⎟⎜Y ⎟ + ⎜ 0 ⎟
⎜ ⎟ ⎜ ⎟ ⎜⎜ 2 ⎟⎟ ⎜⎜ ⎟⎟
⎜X ⎟
⎝ 3 ⎠ ⎜⎜ 1 0 3 ⎟⎟ ⎝ 0 ⎠ ⎝ −2 ⎠
⎝ 2 2 ⎠
⎛ X 1∗ ⎞
∗
⎜ ∗⎟
ou, en appelant X = ⎜ X 2 ⎟ le vecteur X après centrage,
⎜⎜ ∗ ⎟⎟
⎝ X3 ⎠
⎛ X 1∗ ⎞ ⎛⎜ 3 2 0 −1 ⎞ Y
2 ⎟⎛ 1 ⎞
∗
X1 =
3 Y
2 1
⎜ ∗⎟
⎜ X 2 ⎟ = ⎜⎜ 0 1 ⎟ ⎜ Y ⎟ soit X ∗ = Y
0
⎜⎜ ∗ ⎟⎟ ⎟ ⎜⎜ 2 ⎟⎟ 2 2
⎝ X 3 ⎠ ⎜⎜⎝ 1 3 ⎟⎟ ⎝ 0 ⎠
∗
0 X 3 = 1 Y1
2 2 ⎠ 2
⎛ X 1∗ ⎞
∗
⎜ ∗ ⎟
On en déduit encore que X = ⎜ X 2 ⎟ .
⎜⎜ ∗ ⎟
⎟
⎝ 3 X1 ⎠
ρ=
( Cov ( X , Y ) )
2
et Var X = σ12 , Var Y = σ 22 la densité Z s’écrit :
VarX VarY
⎛ ⎛ x2 ⎞
1 1 xy y2 ⎞ ⎟
f Z ( x, y ) = exp ⎜ − ⎜ 2 − 2ρ + ⎟ .
2πσ1σ 2 1 − ρ 2 ⎜
⎜ 2 1− ρ 2
⎝ ( ) ⎜
⎝ σ1 σ1σ 2 σ 22 ⎠⎟ ⎟⎟
⎠
f ( x, y ) f Z ( x, y )
f ( x y) = Z =
fY ( y )
∫ ! f Z ( x, y ) dx
⎡ ⎛ x2 ⎤
1 ⎢ 1 xy y 2 ⎞⎥
exp − ⎜ − 2ρ + ⎟
=
2πσ1σ 2 1 − ρ 2
⎢ 2 1− ρ2 ⎜ σ 2
⎢⎣ ⎝ 1 ( )
σ1σ 2 σ 22 ⎟⎠ ⎥
⎥⎦
1 ⎡ 1 y ⎤2
exp ⎢ − 2⎥
2πσ 2 ⎣⎢ 2 σ 2 ⎦⎥
⎡ 2⎤
1 1 ⎛ σ1 ⎞ ⎥
= exp ⎢ − x − ρ y
⎢ 2σ 2 1 − ρ 2 ⎜⎝ ⎟
(
σ1 2π 1 − ρ 2 ⎣⎢ 1 ) σ2 ⎠ ⎥(⎥⎦ )
x étant une variable réelle et y une valeur numérique fixée, on reconnaît une
densité gaussienne. Plus précisément : la loi conditionnelle de X sachant Y = y est
⎛ σ1
N⎜ρ
2
y , σ1 1 − ρ( 2
) ⎞⎟.
⎝ σ2 ⎠
90 Processus stochastiques et filtrages optimaux
σ1 σ1
On voit en particulier que E ( X y ) = ρ y et que E ( X Y ) = ρ Y.
σ2 σ2
Dans le chapitre sur l’estimation, on verra plus généralement que si
( X , Y1 ,..., Yn ) (
est un vecteur gaussien, E X Y1 ,..., Yn ) s’écrit sous la forme
n
λ0 + ∑ λ jY j .
j =1
Enoncé 2.1.
2) Combien de fois faut-il lancer la flèche pour que, avec une possibilité
≥ 0, 9 , la cible soit atteinte au moins une fois (on donne &n 10 ≠ 2, 305 ) ?
3) Supposons que l’on tire 100 fois sur la cible, calculer la probabilité pour que
la cible soit atteinte au moins 20 fois.
Solution 2.1.
1 ⎛ x2 + y2 ⎞
Z = ( X , Y ) est f Z ( x, y ) = f X ( x ) fY ( y ) = 2
exp ⎜ − 2 ⎟
8π R ⎝ 8R ⎠
1 ⎛ x2 + y2 ⎞
et P ( Z ∈ D ) = 2 ∫
exp ⎜ − 2 ⎟ dx dy
8π R D ⎝ 8R ⎠
Vecteurs gaussiens 91
R −e −u
2
⎛ 1 ⎞ 2π 1 1 R2 −1
2 ⎟∫ ∫0 e ∫0
=⎜ d θ 8 R 2 ede = ⋅ 2π ⋅ e 8 R 2 du = 1− e 8
⎝ 8π R ⎠ 0 8π R 2
2
U = U1 + ... + U n ∼ B ( n, p )
P (U ≥ 1) = 1 − P (U = 0 ) = 1 − Cnk p k (1 − p ) ( où k = 0 )
n−k
= 1 − (1 − p )
n
(( ) )
1
−1 −1 −1 2
avec µ = 1 − e 8
# 0,1175 et σ = 1− e 8
e 8
# 0, 32
92 Processus stochastiques et filtrages optimaux
⎛ 8, 25 ⎞
soit P ⎜ S ≥ ⎟ = P ( S ≥ 2, 58 ) = 1 − F0 ( 2, 58 )
⎝ 3, 2 ⎠
où S est une v.a. N ( 0,1) et F0 est la fonction de répartition des v.a. N ( 0,1) .
Enoncé 2.2.
n n
1) Montrer que les v.a. Y = ∑ a j x j et Z = ∑ b j x j sont indépendantes si
j =1 j =1
n
et seulement si ∑ a jb j = 0 .
j =1
Solution 2.2.
0 = Cov (Y , Z ) = EYZ = ∑ a j b j EY j Z j = ∑ a j b j
j j
1 1 ⎛ 1⎞ 1 1
X= X1 + % + X n ; Y1 = ⎜ 1 − ⎟ X 1 − X 2 − % − X n et
n n ⎝ n⎠ n n
n
1⎛ 1⎞ 1
∑ a j b j = n ⎜⎝1 − n ⎟⎠ − ( n − 1) n = 0
j =1
⎛ 1⎞ 1 1
Y1 = ⎜ 1 − ⎟ X1 − X 2 − % − X n ;
⎝ n⎠ n n
1 ⎛ 1⎞ 1
Y2 = − X 1 + ⎜ 1 − ⎟ X 2 − % − X n
n ⎝ n⎠ n
n
⎛ 1⎞1 1
et ∑ a j b j = −2 ⎜⎝1 − n ⎟⎠ n − ( n − 2 ) n < 0
j =1
Enoncé 2.3.
On donne une v.a. réelle X ∼ N ( 0,1) et une v.a. discrète ε tel que
1 1
P ( ε = −1) = et P = ( ε = +1) = .
2 2
Solution 2.3.
1)
(
FY ( y ) = P (Y ≤ y ) = P ( ε X ≤ y ) = P ( ε X ≤ y ) ∩ ( ( ε = 1) ∪ ( ε = −1) ) )
=P ( ( (ε X ≤ y ) ∩ (ε = 1) ) ∪ ( (ε X ≤ y ) ∩ (ε = −1) ) )
A cause de l’incompatibilité des deux événements liés par la réunion,
= P ( ( ε X ≤ y ) ∩ ( ε = 1) ) + P ( ( ε X ≤ y ) ∩ ( ε = −1) )
= P ( ( X ≤ y ) ∩ ( ε = 1) ) + P ( ( − X ≤ y ) ∩ ( ε = −1) )
A cause de l’indépendance de X et ε,
P ( X ≤ y ) P ( ε = 1) + P ( − X ≤ y ) P ( ε = −1)
1
=
2
( P ( X ≤ y ) + P ( − X ≤ y ))
Enfin, grâce à la parité de la densité de la loi N ( 0,1) ,
= P ( X ≤ y ) = FX ( y ) ;
3) X + Y = X + ε X = X (1 + ε ) ;
1
( )
Donc P ( X + Y = 0 ) = P X (1 + ε ) = P (1 + ε = 0 ) =
2
.
Enoncé 2.4.
⎪⎧ X si X <a
1) Montrer que la v.a.r. Y définie par Y = ⎨ est aussi une
⎪⎩− X si X ≥a
v.a.r. X ∼ N ( 0,1) .
4 ∞ − x2
2) Vérifier que Cov ( X , Y ) = 1 − ∫a x 2e 2 dx .
2π
Solution 2.4.
1) FY ( y ) = P ( Y ≤ y ) = P ( (Y ≤ y ) ∩ ( X < a) ∪ ( X ≥ a) )
Distributivité et puis incompatibilité % ⇒
( ) (
P (Y ≤ y ) ∩ ( X < a ) + P (Y ≤ y ) ∩ ( X ≥ a ) = )
P ( (Y ≤ y ) ) ((
X < a P ( X < a) + P Y ≤ y X ≥ a P ( X ≥ a) ) )
P ( X ≤ y ) P ( X < a ) + P (( − X ≤ y )) P ( X ≥ a )
*++++++++,
P( X ≤ y )
1 − x2
car e 2 = f X ( x) est paire
2π
( )
= P ( X ≤ y ) P ( X < a ) + P ( X ≥ a ) = P ( X ≤ y ) = FX ( y )
96 Processus stochastiques et filtrages optimaux
2) EX = EY donc :
a −a ∞
Cov ( X , Y ) = EXY = ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−a −∞ a
∞ −a ∞
=∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−∞ −∞ a
−a ∞
−∫ x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx
−∞ a
2
Le 1er terme égale EX = VarX = 1 .
Enoncé 2.5.
⎛X⎞ ⎛0⎞
Soit Z = ⎜ ⎟ un vecteur gaussien de vecteur espérance m = ⎜ ⎟
⎝Y ⎠ ⎝1 ⎠
⎛ 1 1 ⎞
c’est-à-dire Z ∼ N 2 ( m, Γ Z ) .
2⎟
et de matrice de covariance Γ Z = ⎜
⎜1 ⎟
⎝ 2 1 ⎠
Solutions 2.5.
⎛ X − 2Y ⎞
2) Comme ⎜ ⎟ est un vecteur gaussien (… écrire la définition)
⎝ aX + bY ⎠
X − 2Y et aX + bY sont indépendants ⇔ Cov ( X − 2Y , aX + bY ) = 0
or Cov ( X − 2Y , aX + bY ) = aVarX − b Cov ( X , Y )
− 2a Cov ( X , Y ) − 2bVarY =
2
a− b−a =0 soit b=0
3
Enoncé 2.6.
Déterminer la v.a. (
E e XY X . )
Solution 2.6.
− y2
E e ( XY
x =E) xY
=∫ e
!
xy 1
2π
e 2 dy
−( y − x )
2
1 x2
=
2π
e 2
∫! e 2 dy
−( y − x )
2
1
Comme y → e 2 est une densité de probabilité (v.a. ∼ N ( x,1) ),
2π
( )
X2
XY
on a finalement E e X =e 2.
CHAPITRE 3
3.1. Définition
{
XT = X t j t j ∈T ⊂ ! }
où T appelé base de temps est un ensemble dénombrable d’instants. X t est la v.a.
i
de la famille considérée à l’instant t j .
Xj : ω ⎯⎯
→ X j (ω ) avec j ∈T ⊂ "
( Ω ,a ) ( !, B ( ! ) )
{ }
DÉFINITION.– xT = x j j ∈ T s’appelle réalisation ou trajectoire du processus
XT .
Lois
Au chapitre 1 nous avons défini les lois PX des vecteurs aléatoires réels
X = ( X 1 ,..., X n ) , lois qui rappelons le, sont des mesures définies sur
T
( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! ) tribu borélienne de ! n .
Stationnarité
P (( X i+ p ∈ Bi ) ∩ ... ∩ ( X j + p ∈ B j ) = P ) (( X i ∈ Bi ) ∩ ... ∩ ( X j ∈ B j ) )
102 Processus stochastiques et filtrages optimaux
X j ∈ L2 ( dP ) ∀j ∈ T .
2 1
On rappelle que si X j ∈ L ∀j ∈ T alors X j ∈ L et ∀i, j ∈ T
EX i X j < ∞ .
– La définition suivante a donc un sens.
(
→ Γ ( i, j ) = Cov X i , X j
Γ : i , j ⎯⎯ )
" x" !
On appelle fonction d’autocorrelation de ce processus, l’application :
→ R ( i, j ) = E X i X j
R : i, j ⎯⎯
" x" !
Ces deux applications, coïncident évidemment si X " est centré. On reconnaît
ici des notions introduites dans le cadre de vecteurs aléatoires mais ici les indices
...i,... j ,... représentant des instants, on peut s’attendre à ce qu’en général quand les
écarts i − j croissent, les valeurs Γ ( i, j ) et R ( i, j ) décroissent.
a
fX j ( x) = 2
et EX j et EX j ne sont pas définies.
(
π a +x 2 2
)
Il ne faut pas confondre un « processus stationnaire et de 2e ordre » (ou de 2e
ordre et stationnaire) avec un « processus stationnaire du 2e ordre ».
EX j + p = ∫ xdPX
! j+ p
( x ) = ∫ ! xdPX ( x ) = EX j j
et :
Γ ( i + p, j + p ) = ∫ 2
xy dPX , X j+ p ( x, y ) − EX i + p EX j + p
! i+ p
=∫
!
2
xy dPX , X i j
( x, y ) − EX i EX j = Γ ( i, j )
L’implication inverse « stationnarité du 2e ordre ⇒ stationnarité » est fausse en
général ; elle est cependant vraie dans le cas des processus gaussiens.
Ergodicité
N
1
EX 0 = lim
N ↑∞ 2N + 1
∑ X j (ω ) p.s. (presque sûrement).
j =− N
N
1
∀n ∈ " K ( j, j + n ) = EX j X j +n = lim
N ↑∞ 2N + 1
∑ X j (ω ) X j +n (ω ) p.s.
j =− N
C’est-à-dire que, sauf éventuellement pour ω ∈ A ensemble de probabilité
nulle ou encore à l’exception de trajectoires dont la probabilité d’apparition est
nulle, on a pour une trajectoire quelconque x" .
+N
1
EX 0 = lim
N ↑∞ 2N + 1
∑ xj (ergodicité du 1er ordre)
j =− N
=
+N
1
EX j X j + n = lim
2N + 1
∑ x j x j +n (ergocité du 2e ordre).
N ↑∞ j =− N
Sous réserve que le processus X " soit ergodique, on peut donc remplacer une
moyenne probabiliste par une moyenne sur le temps.
+N
1
Et si E X 0 < ∞ alors EX 0 = lim
N ↑∞ 2N + 1
∑ X j (ω ) p.s.
j =− N
REMARQUE.– Supposons que les v.a. X j soient des v.a. indépendantes de Cauchy
1 a
de densités de probabilité ( a > 0).
π a + x2 2
2π A 2π
EX j = ∫ Acos ( λ j + θ ) fΘ (θ ) dθ = ∫ cos ( λ j + θ ) dθ = 0
0
2π 0
2π
Γ ( i , j ) = K ( i , j ) = EX i X j = ∫ A cos ( λ j + θ ) A cos ( λ j+θ ) fΘ (θ ) dθ
0
2 2
A 2π A
∫ cos ( λ i + θ ) cos ( λ j + θ ) dθ = cos ( λ ( j − i ) )
2π 0
2
Ergodicité de l’espérance
+N
1
lim
N 2N + 1
∑ Acos ( λ j + θ ) (avec θ fixé ∈ [ 0, 2π [ )
j =− N
1 N
2A ⎛ N
1⎞
= lim
2N + 1
∑ cosλ j = lim
N 2N + 1
⎜ ∑ cosλ j − ⎟
2
N
j =− N ⎝ j =0 ⎠
2A ⎛ 1⎞ 2 A ⎛ 1- e ( ) 1 ⎞
N iλ N +1
⎜ ∑
iλ j
= lim Ré e − ⎟ = lim ⎜ Ré − ⎟
N 2 N + 1 ⎝ j =0 2 ⎠ N 2N + 1 ⎝ 1 − e iλ 2⎠
+N
1
lim ∑ Acos ( λ j + θ ) Acos ( λ ( j + n ) + θ )
N 2N + 1 j =− N
(avec θ fixé ∈ [ 0, 2π [ )
A2 +N
= lim
N 2N + 1
∑ cosλ j cosλ ( j + n )
j =− N
2 +N
1 A
= lim
N 2 2N + 1
∑ ( cosλ ( 2j+n ) + cosλ n )
j =− N
⎛ 1 A2 ⎛ +N ⎞ ⎞ A2
Ré ⎜ eiλ n ∑ eiλ 2 j ⎟ ⎟ +
= lim ⎜
⎜ 2 2N + 1 ⎟ 2 cosλ n
N
⎝ ⎝ j =− N ⎠⎠
A2
La limite est encore nulle et cosλ n = K ( j , j + n ). Donc la fonction
2
d’autocorrelation est ergodique.
Processus de Markov
DÉFINITION : On dit que X " est un processus de Markov discret si :
– ∀B ∈ B ( ! ) ;
– ∀x1 ,..., x j +1 ∈ ! .
Alors ( ) (
P X t j+1 ∈ B X t j = x j ,..., X t1 = x1 = P X t j+1 ∈ B X t j = x j ) ;
( ) (
P X t j+1 ∈ B x j ,..., x1 = P X t j+1 ∈ B x j ).
Processus à temps discret 107
On peut dire que si t j représente l’instant présent, pour l’étude de X " vers le
( ) (
P X j +1 ∈ B x j est indépendante de j = P ( X 1 ∈ B x0 ) . )
Voici un exemple de processus de Markov que l’on rencontre souvent dans la
pratique.
108 Processus stochastiques et filtrages optimaux
( ) ( )
P X j +1 ∈ B x j , x j −1 ,..., x0 = P X j +1 ∈ B x j
⇔ P ( f ( X , N ) ∈ B x , x ,..., x ) = P ( f ( X , N ) ∈ B x )
j j j j −1 0 j j j
⇔ P ( f ( x , N ) ∈ B x , x ,..., x ) = P ( f ( x , N ) ∈ B x )
j j j j −1 0 j j j
( X j −1 = x j −1 ) ∩ ... ∩ ( X 0 = x0 ).
Or la relation de récurrence nous conduit à des expressions de la forme :
X 1 = f ( X 0 , N 0 ) , X 2 = f ( X 1 , N1 ) = f ( f ( X 0 , N 0 ) , N1 )
(
= f 2 ( X 0 , N 0 , N1 ) ,..., X j = f j X 0 , N1 ,..., N j −1 )
Ce qui prouve que : N j étant indépendante de X 0 , N1 ,..., N j −1 est aussi
indépendante de X 0 , X 1 ,..., X j −1 (et même de X j ).
Processus gaussien
(
vecteur aléatoire X S = X i ,..., X j ) est un vecteur gaussien, ce que l’on note
(
rappelons le : X S ∼ N n mS , Γ X . s
)
On voit en particulier que dès que l’on sait qu’un processus X " est gaussien, sa
loi est entièrement déterminée par sa fonction espérance j → m ( j ) et sa fonction
covariance i, j → Γ ( i, j ) . Un tel processus est noté X " ∼ N ( m ( j ) , Γ ( i , j ) ) .
Processus à temps discret 109
( 2π ) 2 XS
2
X
Soit X " un processus stationnaire du 2e ordre. On note H la famille des
combinaisons linéaires finies de v.a. de X " .
⎧⎪ ⎫⎪
C’est-à-dire : H X
= ⎨ ∑ λ j X j S fini ⊂ " ⎬
⎩⎪ j∈S ⎭⎪
X
DÉFINITION.– On appelle espace linéaire associé au processus X " la famille H
2 X
augmentée des limites dans L des éléments de H . L’espace linéaire est noté par
X
H .
REMARQUES.–
1) H
X
⊂H X
⊂ L2 ( dP ) et H X
est un sous espace vectoriel fermé de
L2 ( dP ).
Opération retard
X
Le processus X " étant donné, on considère sur H l’opérateur
( )
T n n ∈ #∗ défini par :
T n : ∑ λ j X j → ∑ λ j X ( j −n ) ( S fini ⊂ " ).
j∈S j∈S
X X
H H
n
DÉFINITION.– T s’appelle opération retard d’ordre n .
⎛ ⎞ ⎛ ⎞
< T n ⎜ ∑ λi X i ⎟ , T n ⎜ ∑ µ j X j ⎟ > = < ∑ λi X i , ∑ µ j X j > .
⎝ i∈I ⎠ ⎝ j∈J ⎠ i∈I j∈J
n X
EXTENSION.– T se prolonge à tout H de la façon suivante :
X X
Soit Z ∈ H et soit Z p ∈ H une suite de v.a. qui converge vers Z dans
converge dans H X
. Il est facile de vérifier que lim T
P
n
( Z p ) est indépendante de
la suite particulière Z p qui converge vers Z.
X X
En conséquence : ∀Z ∈ H et la suite Z p ∈ H qui converge vers Z . Il est
naturel de poser T n
( Z ) = lim
P
T n
( Z p ).
Processus à temps discret 111
PROPOSITION.–
+∞
Sous l’hypothèse ∑ C ( nθ ) < ∞ :
n =−∞
1
2) S XX est continue, périodique de période , réelle et paire.
θ
+∞
∑ C ( pθ ) exp ( −2iπ ( pθ ) u )
p =−∞
1
converge uniformément sur ! et définit une fonction S ( u ) continue et
θ
-périodique. En outre :
1 +∞
∫ −1
2θ
∑ ( pθ ) exp ( −2iπ ( pθ ) u ) exp ( 2iπ ( nθ ) u ) du
2θ p =−∞
C
1
=∫ 2θ
S ( u ) exp ( 2iπ ( nθ ) u ) du
−1
2θ
C ( − nθ ) = C ( nθ )
+∞
et on en déduit que S XX ( u ) = ∑ C ( pθ ) exp ( −2iπ ( pθ ) u ) est réelle et paire
p =−∞
∞
(on a aussi S XX ( u ) = C ( 0 ) + 2 ∑ C ( pθ ) cos2π ( pθ ) u ).
p =1
+∞
− λ nθ − 2iπ ( nθ )u
S XX ( u ) = σ 2 ∑e
n =−∞
⎛ ∞ ∞ ⎞
− λ nθ − 2iπ ( nθ )u − λ nθ + 2iπ ( nθ )u
= σ 2 ⎜⎜ ∑ e + ∑e − 1⎟⎟
⎝ n =0 n =0 ⎠
⎛ 1 1 ⎞
=σ 2 ⎜ − λθ − 2iπθ u
+ − λθ + 2iπθ u
− 1⎟
⎝ 1− e 1− e ⎠
1 − e−2λθ
=σ 2
1 + e−2λθ − 2e−λθ cos2πθ u
Bruit blanc
Théorème d’Herglotz
∞
Dans cet énoncé on ne suppose plus que ∑ C ( nθ ) < ∞ .
n =−∞
+∞
Si ∑ C ( nθ ) < ∞ , on retrouve l’énoncé du début avec :
n =−∞
3.3.1. Problème
∑ ϕ ( u j ) ( Zu j
− Zu j−1 )
j
{
trouver un p.a.o. Z S = ZU u ∈ S = ⎡ − 1
⎣ 2θ
,1 ⎤
2θ ⎦} tel que ∀j ∈ " X jθ
X jθ = ∫ e ( ) dZu .
2iπ jθ u
puisse s’écrire comme une intégrale de Wierner
S
2iπ ( jθ )u
REMARQUE.– ∫ S ϕ ( u ) dZu et ∫S e dZu ne seront pas des intégrales de
Stieljes ordinaires (et c’est ce qui motive une étude particulière).
En effet :
⎛ ⎞
⎜ ⎟
⎜ σ = {,.., u j −1 , u j , u J +1} subdivision de S ⎟
⎜ ⎟
posons ⎜ σ = sup u j − u j −1 module de la subdivision σ ⎟
⎜ j
⎟
⎜I =
⎜ σ u∑ (
ϕ ( u j ) Zu j − Zu j−1 ) ⎟
⎟
⎝ j ∈σ ⎠
n’existe pas et ∫ S ϕ ( u ) dZu ne peut donc être une intégrale de Stieljes ordinaire.
2
lim E Iσ − ∫S ϕ ( u ) dZ u = 0 .
σ →0
∫ S ϕ ( u ) dZu = σlim→0 L _ ( Iσ ) .
2
Ce qu’on écrit encore parfois :
3.3.2. Résultats
{
Ce processus sera noté Z S = Z u u ∈ S . }
Par ailleurs, on dira qu’un tel processus est :
– centré si EZ u = 0 ∀u ∈ S ;
2
– du 2e ordre si EZ u < ∞ (c’est-à-dire Z u ∈ L
2
( dP ) ) ∆u ∈ S ;
– continue dans L : si E ( Z u + ∆u − Z u ) → 0
2 2
( ) ( )
2 2
u4 − u3 = u2 − u1 ; on a E Zu4 − Z u3 = E Zu2 − Z u1 .
2
PROPOSITION.– A tout p.a.o. Z S continu à droite dans L , on peut associer :
– une fonction F non décroissante sur S tel que :
F ( u ′ ) − F ( u ) = E ( Z u′ − Zu ) si u < u ′ ;
2
– une mesure µ sur B ( S ) qui est telle que ∀ u , u ′ ∈ S avec u < u ′ alors
( ) ( ).
µ ( ]u, u′]) = F u′+ − F u −
⎛ ⎞
1) La
σ →0
lim
⎜ u∑
ϕ ( u j ) Zu − Zu
L2 _ ⎜ ( j j −1
) ⎟⎟ existe. C’est par définition
⎝ ∈σ j ⎠
l’intégrale stochastique de Wiener ∫ ϕ ( u ) dZ u ;
S
2) Soit ϕ et ψ ∈ L
2
( µ ) à valeurs complexes. On a la propriété :
E ∫ ϕ ( u ) dZ ∫ ψ ( u ) dZ
S u S u
= ∫ ϕ ( u )ψ ( u ) d µ ( u ) ,
S
∫ ϕ ( u ) dZ ∫ ϕ (u ) d µ ( u ).
2
en particulier E u =
S S
118 Processus stochastiques et filtrages optimaux
Idée de la démonstration
∫ S ϕ ( u ) dZu = ∑j ϕ ( u j ) ( ZU j
− ZU j−1 ). )
On établit ensuite le résultat dans le cas général en utilisant le fait que
ε ( ⊂ L2 ( µ ) ) est dense dans L
2
(µ ) c’est-à-dire que ∀ϕ ∈ L
2
(µ ) on peut
2
ϕ − ϕn L ( µ ) = ∫ ϕ ( u ) − ϕn ( u ) d µ ( u ) → 0
2
2 quand n → ∞
S
1
2iπ ( nθ )u
nθ → C ( nθ ) s’écrit C ( nθ ) = ∫ − 1220θ e d µX (u )
{
unique Z S = Z u u ∈ S = ⎡ −1 , 1 ⎤ tel que :
⎣ 2θ 2θ ⎦ }
2iπ ( jθ )u
∀j ∈ " X jθ = ∫ e dZ u
S
Processus à temps discret 119
dZu e (
2iπ ( jθ )u 2iπ ( j + n )θ ) u
REMARQUE.– EX jθ X ( j + n )θ = E e
S S ∫ dZu ∫
et en appliquant la propriété énoncée au 2 de la proposition précédente.
−2iπ ( nθ )u
= ∫ e dZ u = C ( − nθ ) = C ( nθ ) .
S
{ }
réels h = h j ∈ ! j ∈ " , on s’intéresse à l’opération qui à X " fait
correspondre un nouveau processus Y" défini par :
+∞ ⎛ +∞ ⎞
∀K ∈ " YK = ∑ j K − j ⎜⎜ ∑ h jT j ⎟⎟ X K
h X =
j =−∞ ⎝ j =−∞ ⎠
2 2
se note aussi h1 où 1 est l’application identique de L dans L ).
0
( h 0T
+∞
Dans la suite on supposera toujours que ∑ h j < ∞ ; cette condition est
j =−∞
1
notée généralement h ∈ & et s’appelle (pour des raisons qui apparaîtront plus tard)
condition de stabilité.
DÉFINITION.– On dit que le processus Y" est le transformé (ou filtré) du processus
+∞
X " par le filtre H (T ) = ∑ h jT j et on écrit Y" = H (T ) X " .
j =−∞
120 Processus stochastiques et filtrages optimaux
REMARQUE.–
{ }
h = h j ∈ ! j ∈ " et selon les cas, on parlera du filtre H (T ) ou du filtre h
ou encore du filtre (..., h− m ,..., h−1 , h0 ,..., hn ,...).
+∞
2) L’écriture « ∀K ∈ " YK = ∑ hj X K − j » est la définition du produit
j =−∞
X
3) Soit X " un processus stationnaire du 2e ordre et H l’espace linéaire
+∞
associé. Il est clair que les v.a. YK = ∑ hj X K − j ∈H X
et que le processus
j =−∞
Filtre causal
1) Les filtres à réponse impulsionnelle finie (ou RIF) qui sont tels que :
N
∀K ∈ " YK = ∑ h j X K − j
j =0
2) Les filtres à réponse impulsionnelle infinie (ou R.I.I.) qui sont tels que :
∞
∀K ∈ " YK = ∑ h j X K − j
j =0
REMARQUES.–
∞
YK = ∑ h j X K − j = h0 X K + ... + hK X 0 + hK +1 X −1 + ...
j =0
K
∀K ∈ # YK = ∑ h j X K − j
j =0
122 Processus stochastiques et filtrages optimaux
K
∀K ∈ # YK = ∑ h j X K − j = − X K + 2 X K −1
j =0
DÉFINITION.– On dit qu’un filtre causal H ( T ) est inversible s’il existe un filtre noté
X " = H (T ) ( ( H (T ) ) −1
)
X " = ( H (T ) )
−1
( H (T ) X " ) ( ∗)
Processus à temps discret 123
X " = ( H ( T ) ) Y" .
−1
( )
−1
Pour la recherche du filtre inverse H (T ) c’est-à-dire pour la recherche de
la suite de pondérateurs { }
h′ = h′j ∈ ! j ∈ " on écrit que la suite d’égalités ( ∗ )
est équivalent à : ∀K ∈ "
⎛ +∞ ⎞ ⎛ ⎛ +∞ ⎞ ⎞ ⎛ +∞ ⎞ ⎛ ⎛ +∞ ⎞ ⎞
X K = ⎜ ∑ h jT j ⎟ ⎜ ⎜ ∑ h′j T j ⎟ X K ⎟ = ⎜ ∑ h′j T j ⎟ ⎜ ⎜ ∑ h j T j ⎟ X K ⎟
⎜ j =−∞ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟ ⎜ j =−∞ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟
⎝ ⎠⎝⎝ ⎠ ⎠ ⎝ ⎠⎝⎝ ⎠ ⎠
ou encore à :
⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞
⎜⎜ ∑ h jT ⎟⎟ % ⎜⎜ ∑ h′j T ⎟⎟ = ⎜⎜ ∑ h′j T ⎟⎟ % ⎜⎜ ∑ h j T ⎟⎟ = 1
j j j j
∞
H (T ) admet le filtre inverse ( H (T ) ) = ∑ h j T j .
−1
1) Si h < 1
j =0
On doit pour cela vérifier que étant donné X K v.a. à l’instant K d’un processus
stationnaire du 2e ordre X " , on a :
⎛⎛ ∞ j j ⎞ ⎞
(1 − hT ) ⎜ ⎜ ∑
⎜ ⎜ j =0
h T ⎟ X K ⎟ = X K (égalité dans L2 )
⎟ ⎟
⎝⎝ ⎠ ⎠
124 Processus stochastiques et filtrages optimaux
⎛ N ⎞
⇔ lim (1 − hT ) ⎜ ∑ h j T j ⎟ X K = X K
N ⎜ j =0 ⎟
⎝ ⎠
( )
⇔ 1 − h N +1 T N +1 X K − X K = h
N +1
X K −( N +1) → 0 quand N ↑ ∞
( )
−1
On remarque en outre que H (T ) est Causal.
⎛ 1 −1 ⎞
2) Si h > 1 écrivons (1 − hT ) = −hT % ⎜1 − T ⎟ donc :
⎝ h ⎠
−1
−1 ⎛ 1 ⎞ ⎛ 1 ⎞
(1 − hT ) = ⎜1 − T −1 ⎟ % ⎜ − T −1 ⎟ .
⎝ h ⎠ ⎝ h ⎠
1
Comme les opérateurs commutent et que < 1,
q
T ( )
− j +1
T −1 ∞ 1 − j ∞
%∑ T = −∑
−1
(1 − hT ) =− j +1
h j =0 h j j =0 h
Mais cet inverse n’a pas de réalité physique, il n’est pas Causal (les « opérateurs
− ( j +1)
avance » T ne sont pas Causaux).
K = { z 0 ≤ r < z < R}
z ∈ C ( 0,1) .
{
alors H ( z ) est holomorphe dans K = z 0 ≤ r < z } ( R = +∞ ) ;
N
– s’il est à réponse impulsionnelle finie (R.I.F.) soit H ( z ) = ∑ hj z− j ,
j =0
+∞
ATTENTION.– étant donnée une série de Laurent ∑ hj z− j (c’est-à-dire étant
j =−∞
(
à-dire qu’au filtre est associé le coupe H ( z ) , K . )
Réciproquement, si étant donné H ( z ) , on veut obtenir le filtre h , il faudra
commencer par préciser le domaine dans lequel on veut développer H ( z ) , car
pour différents domaines K , on obtient des développements en séries de Laurent
différents ayant H ( z ) pour somme.
Inversion de la transformée en z
( )
Etant donné le couple H ( z ) , K , on veut retrouver le filtre h .
1 H ( z)
∀j ∈ " h j =
2iπ ∫Γ +
z − j +1
dz
∫Γ H ( e ) e dθ .
1 iθ ijθ
l’intégrale ∀j ∈ " hj =
2iπ
+
∞
R ( z ) = ∑ h j z− j =
1
1 − hz −1
définie sur z { z >h }
j =0
1
(on remarque aussi que R ( z ) = ).
H ( z)
Possédant R ( z ) =
1
1 − hz −1
sur {z }
z > h , retrouvons (à titre d’exercice) le
j
1 1 z
∫ R ( z )z ∫
j −1
Par les formules de Laurent h j = dz = −dz
2iπ 2iπ
+ +
Γ Γ
z−h
X
PROPOSITION.– Soit X " un processus stationnaire du 2e ordre et soit H
l’espace linéaire associé ; on considère toujours le filtre H (T ) de fonction de
+∞ +∞
transfert H ( z) = ∑ h j z − j avec ∑ hj < ∞ .
j =−∞ j =−∞
Alors :
⎛ +∞ ⎞ +∞
1) ∀ K ∈ " ⎜ ∑ q jT j ⎟ X K = ∑ q j X K − j converge dans H X .
⎜ j =−∞ ⎟
⎝ ⎠ j =−∞
+∞
C’est dire que les v.a. YK = ∑ h j X K − j du processus filtré restent dans H X
;
j =−∞
on dit que le filtre est stable.
2) Le processus filtré Y" est stationnaire du 2e ordre.
SYY ( u ) = H ( −2iπ u ) S XX ( u )
2
130 Processus stochastiques et filtrages optimaux
DÉMONSTRATION.–
+∞ +∞
( )
1
∑ hj X K − j = ∑ h j E X K2 − j 2
<∞.
j =−∞ J =−∞
+∞
Ce qui est vrai compte tenu de l’hypothèse de stabilité ∑ h j < ∞ et de la
j =−∞
Il est facile de vérifier qu’on peut intervertir les symboles ∑ et ∫, de sorte que :
1 ⎛ ⎞
CY ( j − i ) = ∫ 2
exp ( 2iπ ( j − i ) u ) ⎜ ∑ h& h& ' exp 2iπ ( & '− & ) ⎟ S XX ( u ) du
−1
2 ⎝ & ,& ' ⎠
2
1
=∫ 2
exp ( 2iπ ( j − i ) u ) ∑ h& exp ( 2iπ &u ) S XX ( u ) du
−1
2 &
1
=∫ exp ( 2iπ ( j − i ) u ) H ( −2iπ u ) S XX ( u ) du
2 2
−1
2
Processus à temps discret 131
SYY ( u ) = H ( −2iπ u ) S XX ( u ) .
2
∗
DÉFINITION.– On appelle processus autorégressif de degré d ∈ # tout processus
stationnaire du 2e ordre, centré X " qui vérifie : ∀K ∈ ".
d
X K = ∑ h j X K − j + BK où B" est un bruit blanc de puissance EBK2 = σ 2 .
j =1
C’est-à-dire qu’on peut obtenir X " par le filtrage de B" par le filtre H (T )
dont le schéma est déjà donné ci-avant à la direction des flèches près.
PROPOSITION.–
DÉMONSTRATION.–
H ( z ) = H ′ ( z0 )( z − z0 ) + ... ou encore :
ne serait pas intégrable au voisinage de u0 ... comme doit l’être une densité
spectrale.
Processus à temps discret 133
X K = h X K −1 + BK
C'est-à-dire (Ε)
(1 − hT ) X K = BK
∀B ∈ B ( ! ) : P ( X K ∈ B X K −1 = α , X K −2 = β ,...) =
P ( hα1 + BK ∈ B X K −2 = β ,...)
et comme BK est indépendant de X K − 2 , X K −1 ,...
= P ( h α1 + BK ∈ B )
= P ( h X K −1 + BK ∈ B X K −1 = α ) = P ( X K ∈ B X K −1 = α )
X K − X K −n −1 = BK + Bk −1 + ... + BK −n
et E ( X K − X K − n −1 ) = E ( BK + BK −1 + ... + BK − n ) = ( n + 1) σ
2 2 2
E ( X K − X K − n −1 ) = E X K2 + E X K2 − n −1 − 2 E X K X K − n −1 ≤ 4σ 2
2
– si h > 1 . En écrivant (1 − hT ) = − hT % ⎜ 1 −
⎛ 1 −1 ⎞ , comme 1 < 1, on
T ⎟
⎝ h ⎠ h
∞
X K = (1 − hT ) BK = ∑ h j BK − j est donc la solution unique de :
−1
j =0
(1 − hT ) X K = BK
Sous cette forme, la stationnarité du 2e ordre de X " est évidente. En effet les
B j étant centrés et orthogonaux.
Processus à temps discret 135
∞ 2
σ2
Var X K
j =0
(
= ∑ E h BK − j
j
) =
1 − h2
⎛ ∞ j ∞ ⎞ ∞
2 h
n
E X i X i+n = E ⎜ ∑ h Bi − j ∑ h Bi + n −& ⎟ = σ ∑ h h = σ
& 2 j j +n
⎜ j =0 ⎟ 1− h
⎝ & =0 ⎠ j =0
n
h
Finalement ∀n ∈ " C ( n ) = Cov ( X i , X i + n ) = σ
2
1− h
( )
Figure 3.9. Graphe de C n , fonction de covariance
d’un processus AR (1) ( h ∈ ] 0,1 [ )
+∞
σ2 +∞
S XX ( u ) = ∑ C ( n ) exp ( −2iπ n u ) =
1− h 2 ∑ hn exp ( −2iπ n u )
n =−∞ n =−∞
σ2 ⎡ 1 1 ⎤
= 2 ⎢
+ − 1⎥
1 − h ⎣1 − h exp ( −2iπ u ) 1 − h exp ( 2iπ u ) ⎦
σ2
=
1 − 2h cos 2 π u + h 2
2) Solution générale de ( E ) :
∞
La solution générale X K = ∑ h j BK − j + Α h K n’est plus stationnaire du 2e
j =0
ordre, sauf si Α = 0.
Enoncé 3.1.
Enoncé 3.2.
1
hn = 2n si n < 0 et hn = si n ≥ 0 .
4n
Processus à temps discret 137
+∞
1) Déterminer le domaine de convergence de la série de Laurent ∑ hn z n
n =−∞
{
2) Si h = hn n ∈ " } est un filtre numérique, déterminer sa fonction de
Solution 3.2.
+∞ −1 ∞ n ∞ n∞ n n
⎛z⎞ ⎛ 1 ⎞ ⎛z⎞
1) ∑ hn z n = ∑ ( ) ∑ ⎜⎝ 4 ⎟⎠ ∑ ⎜⎝ 2 z ⎟⎠ ∑ ⎜⎝ 4 ⎟⎠
2 z + = +
n =∞ n =−∞ n =0 n =1 n =0
1
La série converge si z > et si z < 4 donc dans la couronne
2
K= z { 1
2
< z <4 .}
+∞ ∞ n
∞ n
⎛z⎞ ⎛ 1 ⎞
2) H ( z ) = ∑ hn z −n
= ∑⎜ ⎟ + ∑⎜ ⎟
n =−∞ n =1 ⎝ 2 ⎠ n =0 ⎝ 4 z ⎠
Enoncé 3.3.
16 − 6 z
Développer H ( z ) =
−1
en série (de Laurent) de puissances de z
( 2 − z )( 4 − z )
dans les trois domaines suivants :
138 Processus stochastiques et filtrages optimaux
1) { z z < 2}
2) { z 2 < z < 4}
3) { z z > 4}
H ( z ) représentant à chaque fois une fonction de transfert, préciser dans les trois
cas si le filtre correspondant est stable et s’il est causal.
Solution 3.3.
2 4 1 1
H (z) = + = +
2−z 4− z 1− z 1− z
2 4
∞ 0
⎛ 1 1 ⎞ n
– si z < 2 H (z) = ∑⎜ + n ⎟
z = ∑ 2n + 4n z − n ( )
n =0 ⎝ 2 4 ⎠
n
n =−∞
∞
⎛ 1 1 ⎞
Le filtre est stable car ∑ ⎜⎝ 2n + 4n ⎟⎠ < ∞ mais non causal puisque la série
n=0
contient des puissances positives de z .
−2 1
– si 2 < z < 4 on écrit H ( z ) = +
(
z 1− 2
z ) 1− z
4
∞ n ∞ n ∞
−2 z 0
=∑ n
+∑ n
= ∑ 4n z − n + ∑ −2n z n .
n =1 z n =0 4 n =−∞ n =1
Enoncé 3.4.
On considère un bruit blanc gaussien B" (rappelons que les BK sont des v.a.
gaussiennes indépendantes ; EBK = 0 et Var BK = 0 ). On se donne par ailleurs
deux réels α et β différents et vérifiant α < 1 et β < 1.
X
2) Notons par H l’espace linéaire engendré par les v.a. X n , n ≤ 0 .
X
Vérifier que H =H B .
∞
3) On pose YK = ∑ β n X K −n K ∈"
n=0
Solution 3.4.
⎛ ∞
⎞
X K = (1 − α T )
−1
(1 − β T ) BK = ⎜ ∑ α nT n ⎟ (1 − β T ) BK
⎝ n =0 ⎠
140 Processus stochastiques et filtrages optimaux
∞
Donc X K = BK + ∑ α n−1 (α − β ) BK −n et X " est bien stationnaire.
n =1
Par ailleurs, le processus X " est généré à partir de B" par le filtre
−1 1− β z
(1 − α T ) (1 − β T ) de fonction de transfert .
1+α z
2
1 − β e2iπ u
Donc d’après le théorème sur le filtrage : S XX (u ) = 2iπ u
σ 2.
1+ αe
B
2) D’après 1) ∀K X K ∈H donc H
X
⊆ H
B
Réciproquement, en partant de BK = (1 − β T ) (1 − α T ) X K
−1
et par des calculs
∞
⎛ ∞ ⎞
= ∑ β n X K −n = ⎜ ∑ β nT n ⎟ X K = (1 − β T ) X K
−1
3) YK
n =0 ⎝ n =0 ⎠
Donc YK = (1 − β T ) (1 − α T )−1 (1 − β T ) BK ,
−1
et comme on peut permuter
∞
les opérateurs, YK = (1 − α T )−1 BK = ∑ α n BK − n
n =0
X
Puisque H = H B , la meilleure approximation linéaire de YK est :
⎛ ∞ ⎞ ∞
projH X YK = projH X YK = projH B ⎜ ∑ α n BK − n ⎟ = ∑ α n+ K B− n
⎝ n =0 ⎠ n =0
0
∞ ∞
α K ∑ α n B− n = α k Y0 = α K ∑ β n X − n
n =0 n =0
Processus à temps discret 141
∞
4) Puisque YK = ∑ α n BK −n, les YK sont des v.a. gaussiennes centrées. Par
n =0
ailleurs :
∞ ∞ ∞
Cov (Y j , YK ) = ∑ ∑ α m+ n E ( BK −n B j −m ) = ∑ α 2m+ K − j EB 2j −m
m =0 n =0 m =0
∞
α K− j
=α
K− j
∑ α 2mσ 2 =
1−α 2
σ2.
m =0
Enoncé 3.5.
∞
Soit X " un processeur vérifiant ∑ bn X K −n = BK ( bn ∈ ! ) où B" est un
n =0
∞
bruit de puissance σ 2 . On pose par ailleurs b ( z ) = ∑ bn z − n .
n =0
1 z K − j −1
1) Montrer que si j < K ∫C b ( z ) dz
EX j BK =
2iπ
+
Solution 3.5.
∞
1) EX j BK = ∑ bn EX j X K −n et par définition de la densité spectracle
n =0
S X ( u ) de X " :
EX j X K − n = cov ( X j , X K −n ) = ∫ ( 2iπ ( j − K + n ) u ) S X ( u ) du
1/ 2
exp
−1/ 2
142 Processus stochastiques et filtrages optimaux
⎛ ∞ n⎞
⎜ ∑ bnT ⎟ X K = BK , X " est obtenu par filtrage de B"
Par ailleurs, puisque
⎝ n =0 ⎠
1
(de densité spectacle σ ), par le filtre de fonction de transfert
2
et par le
b( z)
2
σ
théorème sur le filtrage S X ( u ) =
b ( exp ( −2iπ u ) )
2
∞
1
exp ( 2iπ ( j − K ) u )∑ bn exp ( 2iπ nu )
1/ 2
d’où EX j BK = σ 2 ∫ du
b ( exp ( −2iπ u ) )
−1/ 2 2
n =0
b ( exp ( −2iπ u ) )
exp ( 2iπ ( j − K ) u )
1/ 2
σ2∫ du
b ( exp ( −2iπ u ) )
−1/ 2 2
1/ 2 exp ( 2iπ ( j − K ) u )
=σ2∫ du
−1/ 2 b ( exp ( −2iπ u ) )
σ2 z K − j −1
EX j BK =
2iπ ∫C +
b( z)
dz
Estimation
( )
X !∗ = X 1 ,..., X j ,... et Y!∗ = (Y1 ,..., Y j ,...) :
– du 2e ordre ;
– pas nécessairement stationnaires du 2e ordre (ils ne possèdent donc pas
nécessairement une densité spectrale).
X !∗ est appelé processus d’état, c’est le processus (physique par exemple) que
l’on cherche à estimer mais il est inaccessible directement.
Y!∗ est appelé processus d’observation, c’est le processus que l’on observe
( )
(précisément on observe une trajectoire y!∗ = y1 ,..., y j ,... qui nous permettra
(
d’estimer la trajectoire correspondante x!∗ = x1 ,..., x j ,... ). )
Un exemple classique est le suivant :
(
X !∗ = X 1 ,..., X j ,... )
(
Y!∗ = X !∗ + U !∗ = X 1 + U1 ,..., X j + U j ,... , )
144 Processus stochastiques et filtrages optimaux
On dit alors que le processus d’état est perturbé par un bruit parasite
U !∗ (perturbation due à la mesure, à la transmission, etc.).
(
y!∗ = y1 ,..., y j ,... ) (
xˆ!∗ = xˆ1 ,..., xˆ j ,... ) ( )
x!∗ = x1 ,..., x j ,... inconnue.
Si :
– p< − 1 on parle de lissage ;
K
– p = K − 1 on parle de filtrage ;
– p > K − 1 on parle de prédiction.
( )
2
E X p − Xˆ p
(
P X p − Xˆ p ≥ C ≤ ) C2
= A.
On voit que l’on obtient un résultat sur les réalisations puisque cette inégalité
signifie exactement que à l’instant p , la valeur inconnue x p appartiendra à
Ce chapitre est une introduction au filtrage de Kalman pour lequel nous aurons à
considérer la meilleure estimation de la v.a. X K (et aussi éventuellement de la v.a.
YK ) ayant observé Y1 ,..., YK −1 et nous supposerons donc p = K .
Z → E( XK − Z )
2
(c’est-à-dire encore trouver la fonction ĝ qui rend
L2 ( dP ) "
( )
2
minimum g → E X K − g (Y1 ,..., YK −1 ) . On a Xˆ K K −1 = gˆ (Y1 ,..., YK −1 ) ).
146 Processus stochastiques et filtrages optimaux
L’espace fondamental que l’on définit ci-après a déjà été introduit, mais dans un
contexte différent, au chapitre 3.
⎧ K −1 ⎫
H KY−1 = ⎨λ01 + ∑ λ jY j λ 0 ,..., λK −1 ∈ " ⎬ .
⎩ j =1 ⎭
K −1
Z = g (Y1 ,..., YK −1 ) = λ0 + ∑ λ jY j et appartiennent donc à HKY−1.
j =1
Z → E( XK − Z )
2
H KY−1 "
(c’est-à-dire trouver les λˆ0 , λˆ1 ,..., λˆK −1 qui rendent minimum :
Estimation 147
2
⎛ ⎛ K −1
⎞⎞
λ0 , λ1 ,..., λK −1 → E ⎜⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟⎟ ).
⎝ ⎝ J =1 ⎠⎠
K −1
On aura Xˆ K K −1 = λˆ0 + ∑ λˆ jY j .
j =0
DÉFINITION.–
2
⎛ ⎛ K −1 ⎞⎞
C ( λ0 , λ1 ,..., λK ) = E ⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟ s’appelle « fonction coût ».
⎜ ⎜ ⎟⎟
⎝ ⎝ j =1 ⎠⎠
La solution est donnée par le résultat suivant, relatif aux espaces de Hilbert.
THÉORÈME.–
K −1
– Il existe Xˆ K K −1 = λˆ0 + ∑ λˆ jY j unique qui rend minimum l’application
j =1
Z → E( XK − Z )
2
;
H KY−1 "
– Xˆ K K −1 est la proposition orthogonale de X K sur H KY−1 (on la note aussi
projH Y X K ). C’est-à-dire X K − Xˆ K K −1 ⊥ H K −1 .
Y
K −1
PROPOSITION.–
K −1
1) Les coefficients λˆ 0, λˆ 1,..., λˆ K −1 de Xˆ K K −1 = λˆ 0 + ∑ λˆ jY j vérifient :
j =1
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ ⎜ ⎟ K −1
ΓY ⎜ # ⎟ = ⎜ # ⎟ et λ 0 K ∑ j j
ˆ = EX − λˆ EY
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟ j =1
⎝ K −1 ⎠ ⎝ K K −1 ⎠
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟
et si ΓY est inversible ⎜ # ⎟ = ΓY ⎜ # ⎟;
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟
⎝ K −1 ⎠ ⎝ K K −1 ⎠
( ) ( )
2
On a Var X$ K = Var X K − Xˆ K K −1 = E X K − Xˆ K K −1
Et si ΓY est inversible =
Démonstration :
1) X K − Xˆ K K −1 ⊥ H K −1 ⇔ X K − Xˆ K K −1 ⊥ 1, Y1 ,..., YK −1
Y
– X K − Xˆ K K −1 ⊥ 1 ⇔
⎛ ⎛ K −1 ⎞⎞
( )
E X K − Xˆ K K −1 1 = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ jY j ⎟ ⎟ = 0
⎜ ⎟
⎝ ⎝ j =1 ⎠⎠
Estimation 149
Soit EX K = λˆ 0 + ∑ λˆ j EY j ; (1)
j
– X K − Xˆ K K −1 ⊥ Yi ⇔
⎛ ⎛ ⎞⎞
( )
E X K − Xˆ K K −1 Yi = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ j Y j ⎟ ⎟ Yi = 0 .
⎜ ⎟
⎝ ⎝ j ⎠⎠
Il vient :
⎛ ⎞
EX K Yi = ⎜ EX K − ∑ λˆ j EY j ⎟ EYi + ∑ λˆ j EY j Yi
⎝ j ⎠ j
= EX K EYi − ∑ λˆ j ( EY j Yi − EY j EYi ) .
j
C’est-à-dire :
∀i = 1 à K −1 ∑ λˆ j Cov (Y j , Yi ) = Cov ( X K , Yi )
j
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ ⎜ ⎟
ou, sous forme matricielle ΓY ⎜ # ⎟ = ⎜ # ⎟.
⎜ˆ ⎟ ⎜ ⎟
⎝ λ K −1 ⎠ ⎝ Cov ( X K , YK −1 ) ⎠
Sous cette hypothèse, il existe une infinité de K-uples ( λˆ ,..., λˆ ) (et donc
1 K −1
aussi une infinité de λ̂ 0 ) qui vérifient la dernière égalité matricielle mais toutes les
expressions λˆ 0 + ∑ λˆ jY j sont égales à la même v.a. Xˆ K K −1 d’après l’unicité de la
j
projection orthogonale sur un sous espace de Hilbert.
– Si ΓY est inversible :
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟ K −1
⎜ # ⎟ = Γ Y ⎜ # ⎟ et 0 K ∑ j j
ˆ = EX − λˆ EY
λ
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟ j =1
⎝ K −1 ⎠ ⎝ K K −1 ⎠
( )
X K = X K − Xˆ K K −1 + Xˆ K K −1 et comme X K − Xˆ K K −1 ⊥ X K
d’après le théorème de Pythagore.
2
⎛ ⎞
( )
2
E X K − Xˆ K K −1 = EX K2 − EXˆ 2 = EX K2 − E ⎜ λˆ 0 + ∑ λˆ jY j ⎟
K K −1 ⎜ ⎟
⎝ j ⎠
et puisque λˆ 0 = EX K − ∑ λˆ j EY j ,
j
Estimation 151
2
⎛ ⎞
E ( X K − X K K −1 ) = − E ⎜ EX K − ∑ λˆ j ( Y j − EY j ) ⎟
2
EX K2
⎝ j ⎠
= EX K − E ( EX K ) − 2 EX K ∑ λˆ j Y j − EY j
2 2
( )
j
⎛ λˆ1 ⎞
⎜ ⎟
Soit sous forme matricielle = Var X K − λˆ 1,..., λˆ ( K −1 ) ΓY ⎜ # ⎟ .
⎜ˆ ⎟
⎜ λK −1 ⎟
⎝ ⎠
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟ −1 ⎜ ⎟
Et si ΓY est inversible comme ⎜ # ⎟ = ΓY ⎜ # ⎟.
⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟
⎝ K −1 ⎠ ⎝ K K −1 ⎠
Il vient :
( )
2
E X K − Xˆ K K −1
⎛ Cov ( X K , Y1 ) ⎞
⎜ ⎟.
= Var X K − ( Cov ( X K , Y1 ) , ... , Cov ( X K , YK −1 ) ) ΓY−1 ⎜ # ⎟
⎜ Cov ( X , Y ) ⎟
⎝ K K −1 ⎠
⎛ λˆ 1 ⎞ ⎛ 0⎞
⎜ ⎟ −1 ⎜ ⎟
⎜ # ⎟ = ΓY ⎜ # ⎟ et Xˆ K K −1 = λˆ 0 = EX K .
⎜ˆ ⎟ ⎜ 0⎟
⎝ λ K −1 ⎠ ⎝ ⎠
2
On retrouve le résultat connu : étant donné une v.a. X ∈ L , la v.a. qui
minimise Z → E ( X K − Z ) est
2
X̂ = EX .
L2 "
K −1
DÉFINITION.– L’hyperplan de "
K
d’équation x = λˆ 0 + ∑ λˆ j y j s’appelle plan de
j =1
Pratiquement :
3) On est assuré que la vraie valeur xK prise par la v.a. X K est dans
l’intervalle ⎤ xˆ K K −1− C , xˆ K K −1+ C ⎡ avec une probabilité supérieure à :
⎦ ⎣
( )
2
E X K − X K K −1
1− 2
,
C
valeur qui se calcule en utilisant la formule de la proposition précédente.
Estimation 153
Cov ( X 2 , Y1 )
Donc Xˆ 2 1 = EX 2 + (Y1 − EY1 ).
VarY1
( )
2
= VarX 2 − Cov ( X 2 , Y1 )(VarY ) Cov ( X 2 , Y1 )
−1
EX$ 2 2 = E X 2 − Xˆ 2 1
⎛ ( Cov ( X 2 , Y1 ) )2 ⎞
= VarX 2 ⎜ 1 − ⎟.
⎜ VarX 2 VarY1 ⎟
⎝ ⎠
H K −1 ⊂ L ( Ω, a, P )
y 2
H ∈L
2
([ 0, T ] , B ([ 0, T ]) , dt )
L2 ( dt )
{ }
L ( dP ) = v.a. X
{ }
2 2
EX < ∞ T 2
= f boréliennes ∫0 f ( t ) dt < ∞
Produit scalaire : ∀X , Y ∈ L
2
( dP ) Produit scalaire : f , g ∈ L
2
( dt )
< X , Y > = EXY T
< f , g >= ∫ f ( t ) g ( t ) dt
∫ X ( ω ) Y ( ω ) dP ( ω )
0
=
Ω
Pour j = − K à K
Pour j =1 à K −1 Y j ∈ L ( dP )
2
e j (t ) =
exp ( 2iπ jt T ) ∈ L ( dt ) 2
T
Espace linéaire : Espace linéaire :
H
Y
K −1
= H (1, Y1 , ..., YK −1 ) H ( e− K ,..., e0 ,..., eK )
Problème : Problème :
⎝ ⎝ j =1 ⎠⎠
Estimation 155
1 T λˆ j
λˆ j = ∫0 h ( t ) e j ( t ) dt et C j = coefficients de Fourier.
T T
⎧⎪ K −1 ⎫⎪
On considère l’espace linéaire d’observation H KY−1 = ⎨ ∑ λ jY j λ j ∈ " ⎬ et
⎪⎩ j =1 ⎪⎭
K −1
on cherche donc la v.a. Xˆ K K −1 = ∑ λˆ jY j qui minimise l’application
j =1
Z → E( XK − Z ).
H KY−1 "
Posons M Y ( )
= ⎡⎣ E YiY j ⎤⎦ matrice des moments d’ordre 2 du vecteur aléatoire
Y1 ,..., YK −1 .
On a la proposition suivante.
PROPOSITION.–
⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞
⎜ ⎟ ⎜ ⎟ et si M est inversible :
1) Les λˆ j vérifient M Y ⎜ # ⎟ = #
⎜ ⎟ Y
⎜ λK −1 ⎟ ⎜⎝ EX K YK −1 ⎟⎠
⎝ ⎠
⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞
⎜ ⎟ −1 ⎜ ⎟.
⎜ # ⎟ = MY ⎜ #
⎟
⎜ λK −1 ⎟ ⎜ EX Y ⎟
⎝ ⎠ ⎝ K K −1 ⎠
156 Processus stochastiques et filtrages optimaux
( )
2
2) E X K − X K K −1 = EX K2 − ∑ λˆi λˆ j EYiY j et si M Y est inversible
i, j
⎛ EX K Y1 ⎞
= EX K2 − ( EX K Y1 ,..., EX K YK −1 ) M Y−1
⎜ #
⎟.
⎜ ⎟
⎜ EX Y ⎟
⎝ K K −1 ⎠
Dorénavant et dans toute la suite de cet ouvrage, l’espace linéaire d’observation
⎧ K −1 ⎫
à l’instant K −1
Y
sera H K −1 = ⎨ ∑ λ1Y j λ j ∈ " ⎬ .
⎩ j =1 ⎭
INNOVATION.– Soit un processus discret (YK ) K∈!∗ qui (comme ce sera le cas en
filtrage de Kalman) peut être le processus d’observation d’un autre processus
( X K ) K∈! ∗ et posons YˆK K −1 = projH Y YK ; YˆK K −1 est donc la meilleure
K −1
I K = YK − YˆK K −1 .
{
H K′Y−1 = g (Y1 ,..., YK −1 ) g : " K −1 → " boréliennes,
{
Notons encore L ( dP ) = v.a.Z EZ < ∞ = espace de Hilbert muni du
2 2
}
produit scalaire : ∀Z1 , Z 2 ∈ L
2
( dP ) < Z1 , Z 2 > L ( dP ) = EZ1Z 2 ;
2
Par ailleurs, f
Y (y
1
, ..., y
K −1 ) désignant la densité du vecteur
d µ = fY ( y1 ,..., yK −1 ) dy1...dyK −1
et introduisons le nouvel espace de Hilbert {
L2 ( d µ ) = g : " K −1 → "
borélienne ∫" K −1
g 2 ( y1 ,..., yK −1 ) d µ < ∞} .
=< g1 , g 2 > L2 ( d µ )
158 Processus stochastiques et filtrages optimaux
vectoriel de L
2
( dP ) :
Soient Z1 et Z 2 ∈ H K′Y−1 et soient deux constantes λ 1 et λ 2 ∈ " . Il existe
g1 ∈ L2 ( d µ ) tel que Z1 = g1 (Y ) et il existe g 2 ∈ L2 ( d µ ) tel que
Z2 = g2 ( µ ) .
Z ∈ L2 ( dP ) .
Vérifions que Z ∈ H K′ −1 :
Y
g ∈ L ( d µ ) , c’est-à-dire :
2
( g p ( y ) − g ( y ) ) d µ = E ( g p (Y ) − g (Y ) )
2 2
gp − g =∫ → 0.
L2 ( d µ ) " K −1 p ↑∞
1
⎛
( ⎞
)
2 2
⎜ E X K − Xˆ K′ K −1 ⎟
⎝ ⎠
H K′ Y−1
XK
H KY−1 Xˆ K′ K −1
Xˆ K K −1
L ( dP )
2
1
⎛
( )
2⎞ 2
ˆ
⎜ E X K − X K K −1 ⎟
⎝ ⎠
étant donné X K ∈ L
2
( dP ) − H K′Y−1 , Xˆ ′
K K −1
sera une meilleure approximation
2
Dans la figure 4.5, les v.a. (vecteur de L ) sont représentés par des points et les
normes des erreurs d’estimation par des segments.
(
est l’espérance conditionnelle E X K Y1 ,..., YK −1 . )
DÉMONSTRATION.–
(∫ )
2
or ( g ( y1 ,..., y K −1 ) ) = ( g ( y ) ) = xi1 f ( x y ) dx ,
2 2
"
et par l’inégalité de Schwarz :
≤ ∫ x 2 f ( x y ) dx ∫ 12 f ( x y ) dx
" &'
" '('' )
=1
donc :
≤∫ f
" K −1 Y
( y ) dy ∫" x 2 f ( x y ) dx.
(
2) Pour montrer que g (Y1 ,..., YK −1 ) = E X K Y1 ,..., YK −1 est la projection )
orthogonale Xˆ K′ K −1 = gˆ (Y1 ,..., YK −1 ) = projH ′Y X K , il suffit, comme cette
K −1
X K − E ( X K Y1 ,..., YK −1 ) ⊥ H K′Y−1 .
C’est-à-dire :
(
⇔ EX K g (Y1 ,..., YK −1 ) = E E ( X K Y1 ,..., YK −1 ) g (Y1 ,..., YK −1 ) . )
Or, le premier membre EX K g (Y1 ,..., YK −1 ) = ∫" K
xg ( y ) f Z ( x, y ) dx dy
=∫ xg ( y ) f ( x y ) fY ( y ) dx dy
"K
K −1
xˆ K K −1 = ∑ λˆ j y j
j =1
xˆ ′K K −1 = E ( X K y1 ,..., yK −1 )
Plus précisément :
⎛ K −1 ⎞
Xˆ K′ K −1 = Xˆ K K −1 + E ⎜ X K − ∑ λˆ jY j ⎟ .
⎜ ⎟
⎝ j =1 ⎠
DÉMONSTRATION.–
⎛ K −1 ⎞
( X K , Y1 ,..., YK −1 ) vecteur gaussien ⇒ ⎜⎜ X K − ∑ λˆ jY j , Y1 ,..., YK −1 ⎟⎟
⎝ j =1 ⎠
est également gaussien.
K −1
Posons V = X K − ∑ λˆ jY j .
j =1
FINALEMENT.–
⎛ K −1 ⎞
E ( X K Y1 ,..., YK −1 ) = E ⎜ ∑ λˆ jY j + V Y1 ,..., YK −1 ⎟
⎝ j =1 ⎠
K −1
= ∑ λˆ j Y j + E (V Y1 ,..., YK −1 ) .
j =1
K −1
E ( X K Y1 ,..., YK −1 ) = ∑ λˆ jY j + EV .
j =1
⎛ 2 2 ⎞
fU ( x, y ) =
1
π 3
exp ⎜ −
⎝ 3
(
x − xy + y 2 ⎟ .
⎠
)
On veut déterminer E X Y . ( )
La loi marginale de Y admet la densité :
⎛ 2 x 2 − xy + y 2 ⎞ dx
fY ( y ) = ∫ "
1
π 3
exp ⎜ −
⎝ 3
( ) ⎟⎠
1 ⎛ y2 ⎞ ⎛ 2 ⎛ y⎞ ⎞
2
= ∫ exp ⎜ − ⎟ ⎜ ⎜
exp − x − ⎟ ⎟ dx
π 3 ⎝ 2 ⎠ ⎝ 3⎝ 2⎠ ⎠
"
1 ⎛ y2 ⎞ 1 ⎛ 2 2⎞
=
2π
exp ⎜ − ⎟ ∫ exp ⎜ − u ⎟ du
⎝ 3 ⎠
⎝ 2 ⎠ 3π
"
2
1 ⎛ y ⎞ 2
= exp ⎜ − ⎟
2π ⎝ 2 ⎠
164 Processus stochastiques et filtrages optimaux
f Z ( x, y ) ⎛ 2 x 2 − xy + y 2 ⎞ 2π exp ⎛ y ⎞
2
f ( x y) =
fY ( y )
=
1
π 3
exp ⎜ −
⎝ 3
( ) ⎟⎠ ⎜ ⎟
⎝ 2 ⎠
2 ⎛ 2⎛ y⎞ ⎞
2
= exp ⎜ − ⎜x− ⎟ ⎟
3π ⎝ 3⎝ 2⎠ ⎠
⎛ ⎞
( x − y 2 ) ⎟⎟ .
2
1 1
= exp ⎜ −
2π i 3 ⎜ 2i 3
4 ⎝ 4 ⎠
1
E ( X y) = y et E ( X Y ) = Y (fonction linéaire de Y ; λˆ = ).
2 2 2
⎛ 1 ⎞
(Ici EV = E ⎜ X − Y ⎟ = 0 car X et Y sont centrés).
⎝ 2 ⎠
avec q réel tel que q < 1 et où BZ est un bruit blanc de puissance EBK = σ .
2 2
n
q
EX i X i + n =σ 2
.
1 − q2
et en moyenne quadratique Xˆ K + + K −1 de X K + + ,
Estimation 165
K −1
Xˆ K ++ K −1 = ∑ λˆ jY j et les λˆ j vérifient :
j =1
⎛ EX 1 X 1 … EX 1 X K −1 ⎞ ⎛ λˆ1 ⎞ ⎛ EX K ++ X 1 ⎞
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ # # ⎟ ⎜ # ⎟=⎜ # ⎟
⎜ EX X - EX X ⎟ ⎜ ˆ ⎟ ⎜ EX X ⎟
⎝ K −1 1 K −1 K −1 ⎠ ⎝ λK −1 ⎠ ⎝ K + + K −1 ⎠
soit
⎛ 1 q - q K −2 ⎞ ⎛ λˆ1 ⎞ ⎛ q K + + −1 ⎞
⎜ K −3
⎟⎜ ⎟ ⎜ K ++−2 ⎟
⎜q 1 -q ⎟⎜ ⎟ ⎜q ⎟
⎜ # ⎟ ⎜ ⎟ =⎜ ⎟ .
# # #
⎜ ⎟⎜ ⎟ ⎜ ⎟
⎜ q K −2 - 1 ⎟ ⎜ λˆ ⎟ ⎜ q + +1 ⎟
⎝ ⎠ ⎝ K −1 ⎠ ⎝ ⎠
On a la solution ( λˆ ,..., λˆ
1 ) = ( 0,..., 0, q ) et cette solution est
ˆ
K − 2 , λK −1
+ +1
Donc Xˆ K + + K −1 = λˆK −1 X K −1 = q X K −1 .
+ +1
C’est-à-dire ici X K −1 .
( ) ( )
2 2
E X K ++ − Xˆ K ++ K −1 = E X K ++ − q + +1 X K −1 =
EX K2 ++ + q ( ) EX K2 −1 − 2q + +1EX K ++ X K −1 =
2 + +1 σ2
1− q 2
1− q
2( + +1)
( )
166 Processus stochastiques et filtrages optimaux
⎛ X 1j ⎞ ⎛ Y j1 ⎞
⎜ ⎟ ⎜ ⎟
⎜# ⎟ ⎜# ⎟
⎜ +⎟ ⎜ ⎟
∀j ∈ !∗ X j = ⎜ X j ⎟ et Y j = ⎜ Y j+ ⎟
⎜# ⎟ ⎜# ⎟
⎜ ⎟ ⎜ ⎟
⎜ X nj ⎟ ⎜ Y jm ⎟
⎝ ⎠ ⎝ ⎠
où ∀ j et + X j et
+
Y j+ ∈ L2.
( ) ( )
n m
– X j ∈ L2 et Y j = L2 ;
( ) ( )
n n
X ∈ L2 et λ ∈" alors λ X ∈ L2 ;
( ) ( )
n m
soient X ∈ L2 et Y ∈ L2 .
Estimation 167
2
X étant une matrice définie positive, on sait qu’il existe une matrice
2
symétrique définie positive notée X tel que X = X X .
2
Toutefois, dans la suite nous n’utiliserons que ⋅ .
∀j ∈ !∗ Y ∈(L ) .
j
2 m
⎧⎪ K −1 ⎫⎪
H KY−1 = H (Y1 ,..., YK −1 ) = ⎨ ∑ j j j
Λ Y Λ ∈ M ( n, m ) ⎬
⎩⎪ j =1 ⎭⎪
et on dira encore que H KY−1 est l’espace linéaire d’observation jusqu’à l’instant
K −1.
REMARQUE.– Les éléments de H KY−1 doivent être des multivecteurs d’ordre n , car
c’est parmi eux que l’on choisira la meilleure estimation de X K , multivecteur
d’ordre n . H KY−1 est donc adapté à X K .
NOTATIONS.–
⎛0⎞ ⎫
⎜ ⎟ ⎪ Y
2) 0H = # ⎬ n zéros, multivecteur nul de H K −1 .
⎜ ⎟
⎜0⎟ ⎪
⎝ ⎠ ⎭
K −1 2
tr X K − Z
2
= trE ( X K − Z )( X K − Z ) = ∑ E
T
j =1
( X Kj −Z j
)
2 2
(où tr X K − Z signifie « trace de la matrice X K − Z »).
THÉORÈME.–
K −1
– Il existe Xˆ K K −1 = ∑ Λˆ jY j unique appartenant à H KY−1 qui minimise
j =1
2
l’application Z → tr X K − Z
;
H KY−1 "
– Xˆ K K −1 est la projection orthogonale de X K sur H KY−1 , c’est-à-dire
Nous pouvons imager ce théorème par le schéma suivant dans lequel tous les
vecteurs apparaissant sont des multivecteurs d’ordre n :
P1) Soit X K et X K ′ ∈ L ( )2 n
(
alors .
X + X′ ) K K −1
= Xˆ K K −1 + Xˆ K′ K −1 .
En effet :
Donc :
(
∀j = 1 à K − 1 < X K − X K′ − Xˆ K K −1 + Xˆ K′ K −1 , Y j >= Onm . )
Et puisque la projection orthogonale de X K + X K′ est unique, on a bien :
(.
X + X ′)
K K −1
= Xˆ K K −1 + Xˆ K′ K −1.
P2) Soit X K ∈ L ( ) 2 n
et une matrice H ∈ M ( m, n ) ;
alors (.
HX ) K K −1 = HXˆ K K −1 .
HXˆ K = (.
HX ) K
K −1 K −1
(
Omm = HE X K − Xˆ K
K −1
)Y T
j (
= EH X K − Xˆ K
K −1
)Y T
j
=< HX K − HXˆ K , Y jT
K −1
Processus d’innovation I
!∗
⎛ X K +1 = A ( K ) X K + C ( K ) N K
⎜⎜
⎝ YK = H ( K ) X K + G ( K ) WK
où
A ( K ) ∈ M ( n , n ) ; C ( K ) ∈ M ( n , + ) ; H ( K ) ∈ M ( m, n ) ; G ( K ) ∈ M ( m , p ),
1) Si n = m :
172 Processus stochastiques et filtrages optimaux
Exprimons maintenant I K sous la forme qui nous sera utile dans la suite.
I K = YK − projH Y
K −1
( H ( K ) X K + G ( K )WK ),
en utilisant la propriété P1 d’abord et P2 ensuite
I K = YK − H ( K ) Xˆ K K −1 − (.
G ( K ) WK ) K K −1 .
Si p ≠ m ( et de n ) , (.
G ( K ) W ) K K −1 n’est pas égal à G ( K ) Wˆ K K −1 et
<G ( )W
K K − (.
G ( K )WK ) K K −1 , Y j > = 0mm ∀ j = 1 à K − 1.
On en déduit :
(.
G ( K ) W ) K K −1 , Y j = 0mm ∀ j = 1 à K − 1 , c’est-à-dire :
Estimation 173
.
K −1 et ( G ( K ) WK ) K K −1 = 0H .
G ( K ) WK ∈ H"
Y ,⊥
Finalement I K = YK − YˆK K −1 = YK − H ( K ) Xˆ K K −1 .
2) Si n ≠ m :
YK et YˆK K −1 sont des multivecteurs d’ordre différent et YK − YˆK K −1 n’a pas de
sens et on définit directement I K = YK − H ( K ) Xˆ K K −1 .
Propriété de l’innovation :
1) I K ⊥ Y j ∀j = 1 à K − 1 ;
2) I K ′ ⊥ I K ∀K et K ′ ≥ 2 avec K ≠ K ′.
DÉMONSTRATION.–
1) I K = YK − H ( K ) Xˆ K K −1 = H ( K ) X K + G ( K ) WK − H ( K ) Xˆ K K −1
donc :
( )
< I K , Y j > = < H ( K ) X K − Xˆ K K −1 + G ( K ) WK , Y j >
Puisque :
( )
< H ( K ) X K − Xˆ K K −1 , Y j > = H ( K ) < X K − Xˆ K K −1 , Y j > 0mm
et puisque :
Y ,⊥
Et ce produit scalaire égale Omm car I K ′ ∈ H K ′−1 et
YK − H ( K ) Xˆ K K −1 ∈HKY (Y
K )
∈ HKY et H ( K ) Xˆ K K −1 ∈ HKY−1 .
Enoncé 4.1.
Soit une famille de v.a. du second ordre X , Y1 ,..., YK ,... on veut estimer X à
partir des Y j et on pose : Xˆ K = E ( X Y1 ,..., YK ) .
(On dit que le processus X̂ !∗ est une martingale par rapport à la suite des YK ).
Enoncé 4.2.
Soit {U j }
j ∈ ! une suite de v.a. indépendantes, du second ordre, de loi
N (0, σ 2 ) et soit θ une constante réelle.
Estimation 175
(
c’est-à-dire calculer E X 2+ P X 1 , X 2 . )
Solution 4.2.
⎛1 0 - 0 ⎞
⎜θ 1 0 - 0 ⎟
1) Considérons la matrice A= ⎜ ⎟ appartenant à M ( K , K ).
⎜# #⎟
⎜ ⎟
⎝ 0 - 0 θ 1⎠
En posant U
K
= (U1 ,...U K ) ,on peut écrire X K = AU K . Le vecteur U K
étant gaussien (composantes gaussiennes et indépendantes), il en va de même pour
K
le vecteur X .
2) EX K = EAU K = AEU K = 0
( )
Γ X = A σ 2 I AT = σ 2 AAT ( I = matrice identité ).
Par ailleurs :
(
Det Γ X K = det ) (σ 2
)
AAT = σ 2 n et Γ X K est inversible.
176 Processus stochastiques et filtrages optimaux
1 ⎛ 1 T −1 ⎞
On obtient f X K ( x1 ,..., xK ) = exp ⎜ −x ΓX K x ⎟.
( 2π ) σ
n/2 n
⎝ 2 ⎠
Xˆ 2+ P = E ( X 2+ P X 1 , X 2 ) = projH X 2+P
⎛ λˆ ⎞ ⎛ C ov ( X 2+ P , X1 ) ⎞
Xˆ 2+ P = λˆ, X1 + λˆ2 X 2 avec ⎜ 1 ⎟ = Γ −X12 ⎜
⎜ C ov ( X , X ) ⎟⎟
Donc ;
⎜ λˆ ⎟
⎝ 2⎠ ⎝ 2+ P 2 ⎠
or C ov ( X J , X K ) = EX J X K = θ si K − j = 1 ;
C ov ( X J , X K ) = EX J X K = 0 si K − j > 1 ;
⎛ C ov ( X 2 P +1 , X 1 ) ⎞ ⎛ 0 ⎞
donc si p > 1 ⎜
⎜ C ov ( X ⎟⎟ = ⎜ ⎟ et Xˆ 2+ P = 0 ;
⎝ 2 P+2 , X )
2 ⎠ ⎝0⎠
⎛ λˆ1 ⎞ 1 ⎛ 1 + θ 2 −θ ⎞ ⎛ 0 ⎞ θ θ
2
si p = 1 ⎜ ⎟=
⎜ λˆ ⎟ σ 2 ⎜⎝ −θ ⎟ ⎜ ⎟ et Xˆ 3 = − 2 Xˆ 1 + 2 Xˆ 2 .
⎝ 2⎠ 1 ⎠ ⎝θ ⎠ σ σ
Enoncé 4.3.
⎛ X K +1 = A ( K ) X K + C ( K ) N K (1)
On considère le système d’état ⎜⎜
⎝ YK = H ( K ) X K + G ( K ) WK ( 2)
où
A ( K ) ∈ M ( n, n ) ; C ( K ) = M ( n, + ) ; H ( K ) = M ( m, n ) ; G ( K ) = M ( m, p )
Estimation 177
et oùX 0 , N K ,WK ( pour K ≥ 0 ) sont des multivecteurs du second ordre tel que
∀j ≤ K WK est orthogonal à X 0 , N 0 ,..., N j −1 , W0 ,..., W j −1 .
Montrer que ( )
∀j ≤ K < H ( j ) X j − Xˆ j j −1 ,WK >= 0mp .
Solution 4.3.
( )
< H ( j ) X j − Xˆ j j −1 , WK > =
⎛ j −1
ˆ ( H ( i ) X + G ( i ) W ) ⎞⎟ , W >
< H ( j ) ⎜ A ( j − 1) X j −1 + C ( j − 1) Ν j −1 − ∑ Λ i i i K
⎝ i =1 ⎠
Par ailleurs en réitérant la relation récurrences (1) ,on voit que X i s’exprime en
fonction de X i −1 et Ν i −1 et aussi de X i −2 , Ni −2 , Ni −1... et aussi de
X 0 , N0 , N1 ,..., Ni −1 .
(
Finalement, on a bien < H ( j ) X j − Xˆ j j −1 ) ,W
K > = 0 mp.
CHAPITRE 5
Le filtre de Wiener
5.1. Introduction
Le filtrage de Wiener est une méthode d’estimation d’un signal perturbé par un
bruit additif.
Le filtrage de Wiener est très utilisé en raison de sa simplicité, pour autant, les
signaux à analyser doivent être des processus stationnaires du second ordre.
Nous appellerons :
( )
T
Y = YK YK −1 !Y j !YK − N +1
( )
T
y = yK yK −1 ! y j ! yK − N +1 .
( )
T
h = h 0 h 1! hN −1 le vecteur représentant les coefficients de la réponse
impulsionnelle que l’on pourrait identifier au vecteur λ du chapitre 4.
– XK l’échantillon à estimer à l’instant K ;
( )
2
Min E ( X K − Z K ) = E X K − Xˆ K
2
.
L’erreur s’écrit :
ε K = X K − hT Y
( )
N
avec h ∈ "N et Y ∈ L2 .
Nous avons une fonction C : coût à minimiser qui est une application :
(
h 0 , h 1,! , hN −1 → C h 0 , h 1,! hN −1 = E (ε K2 ) ) .
N
" → "
( )
2
soit C = E X K − hT Y (scalaire)
E (ε K Y ) = 0 soit quand h = hˆ .
⎛ ⎞
En utilisant l’expression de εK : E⎜ XK − hˆT Y ⎟ Y = 0 ;
⎝ ⎠
Soit E ( X K Y ) = E Y Y ( T
) hˆ .
Nous appellerons :
182 Processus stochastiques et filtrages optimaux
Le vecteur r d’intercorrélation :
(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
R la matrice d’autocorrélation des données observables :
⎛ YK ⎞
⎜ ⎟
Y
R = E ⎜ K −1 ⎟ (YK YK −1 !YK − N +1 ) = E Y Y T
N ×N ⎜ # ⎟ ( )
⎜⎜ ⎟⎟
⎝ YK − N +1 ⎠
nous obtenons :
N −1
( )
rXY ( j ) = E X K YK − j = ∑ hˆi RYY ( j − i ) ∀j ∈ [ K , K − N +1]
i =0
Equation de Wiener-Hopf.
ĥ = R −1 r .
(
E XK − )
Xˆ K Y = 0 et :
(
E XK − )
Xˆ K Xˆ K = 0.
Le filtre de Wiener 183
(ε ) = E ( X Xˆ )
2
2
C min = Min E K K − K
= E(X Xˆ ) X
K − K K
= E(X 2
Xˆ ) .
K −
2
K
Mais Xˆ K = hˆ Y .
T
⎛2 a⎞ ⎛1 ⎞
Soit R = ⎜ ⎟ ; r = ⎜ ⎟.
⎝ a 2⎠ ⎝a⎠
Nous en déduisons :
T
⎛ 2 − a2 a ⎞
ˆ
h=⎜ 2 ⎟
4 − a2 ⎠
et Min E (ε ) = 4 −2a
2
K 2
.
⎝ 4−a
Revenons à notre calcul de filtre FIR.
184 Processus stochastiques et filtrages optimaux
( )
T
hˆ = hˆ 0 hˆ 1 ! hˆ N −1
N −1
H ( z ) = ∑ hˆ i z −i
i =0
Théorème de Paley-Wiener
iω
Soit une fonction SYY ( z ) vérifiant quand z = e :
∞
SYY (eiω ) = ∑ sn e −inω fonction réelle et ≥ 0 ;
−∞
Le filtre de Wiener 185
2π
SYY ( z ) = σ ε2 A ( z ) A z −1 . ( )
σ ε2 représente la variance d’un bruit blanc et Α( z ) représente en outre un système
à phase minimale. De plus la factorisation de SYY ( z ) est unique.
( )
2
SYY (eiω ) = σ ε2 Α(eiω ) Α e−iω = σ ε2 Α(eiω ) Α(eiω ) = σ ε2 Α(eiω )
1
c’est-à-dire : σ ε2 = 2
SYY (eiω ) .
iω
Α(e )
1
Donc le filtre blanchit le processus YK , K ∈ Z .
Α( z )
Schématiquement :
REMARQUE.– A ( z )
2
( )
= A ( z ) . A z −1 si les coefficients de A ( z ) sont réels.
186 Processus stochastiques et filtrages optimaux
Ainsi B ( z ) = A ( z ) . H ( z )
r X ε ( j ) = ∑ bˆi R
i
εε ( j − i ) .
Soit rX ε ( j ) = bˆ j σ ε2 .
rX ε ( j )
Ainsi bˆ j = 2
.
σε
∞
Et B ( z ) = ∑ bˆ j z − j pour B ( z ) causale.
j =0
∞
1
Ainsi B ( z ) =
σε 2 ∑ rX ε ( j ) z − j .
j =0
∞
1
Ainsi : B ( z ) =
σε 2 ∑ rX ε ( j ) z − j
j =0
RXY ( K ) = E (( X n + K Yn ) )
⎛ ∞ ⎞
= E ⎜ X n + K ∑ ai ε n −i ⎟
⎝ i =0 ⎠
∞
RXY ( K ) = ∑ ai RX ε ( K + i)
i =0
−∞
RXY ( K ) = ∑ a−i RX ε ( K − i) = a− k ∗ RX ε (K )
0
( )
S XY ( z ) = A z −1 S X ε ( z )
Il vient :
1
⎡ S ( z)⎤
H (Z ) = 2 ⎢ XY ⎥
σ ε A ( z ) ⎢ A z −1 ⎥
⎣ ⎦+ ( )
5.5. Evaluation de l’erreur minimale
C min = E (ε K X K ) quand h = hˆ
= Rε X ( 0)
188 Processus stochastiques et filtrages optimaux
⎛ ⎞
C min = E ( X K − Xˆ K ) X K ou = RXX ( 0 ) − E ⎜⎜ hˆT YX K ⎟⎟
⎝ ⎠
soit C min = RXX ( 0 ) − hˆT r déjà rencontrée dans le cas du filtre FIR.
∞
C min = RXX ( 0 ) − ∑ hˆi RXY ( i )
i =0
ou :
∞
C min = RXX ( 0 ) − ∑ hˆi RYX ( −i )
i =0
1
∫C (0,1) ( S XX ( z ) − H ( Z ) SYX ( z ) ) z
−1
C min = dz
j 2π
Enoncé 5.1.
1 1
RXX ( K ) = δ ( K =0) + ⎡⎣δ ( K =−1) + δ ( K =1) ⎤⎦
2 4
Le filtre de Wiener 189
1
Rnn ( K ) = δ ( K =0)
2
Solution 5.1.
1) hˆ = R r =(7 /15
−1
2 /15)T .
Enoncé 5.2.
K
RXX ( K ) = a et R WW ( K ) = N δ ( K =0)
et sachant :
hˆ = R r hˆ : h
-1
optimal.
190 Processus stochastiques et filtrages optimaux
Avec :
⎛ YK ⎞
⎜ ⎟
YK −1 ⎟
R =E
N ×N
⎜
⎜ # ⎟
( YK YK −1 !YK − N +1 ) = E Y Y T ( )
⎜⎜ ⎟⎟
⎝ YK − N +1 ⎠
(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
1) Donner les 2 composantes du vecteur ĥ représentant la réponse
impulsionnelle.
1
1) hˆ = 2 2
(1 + N − a 2 aN )T
(1 + N ) − a
1+ N − a2 + a2 N
2) C min = 1 −
(1 + N ) 2 − a 2
Le filtre de Wiener 191
3)
2
1 A 1− a Na
et σ ε =
2
4) H ( z ) = −1
avec A =
σ ε 1 − bz
2
1 − ab b
n
5) hn≥0 = cb avec c =
(1 − a ) b
2
Na (1 − ab )
c
6) C min = 1 −
1 − ab
γ =σx
2
1) Donner le filtre de Wiener en fonction de N et γ en posant , le
σ ω2
rapport signal à bruit.
Solution 5.3.
γ
1) h j =
1 + Nγ
σ x2
2) C min =
1 + Nγ
CHAPITRE 6
6.1. Introduction
Par traitement adaptatif, on entend une classe particulière et pourtant très large
d’algorithmes d’optimisation qui sont mis en œuvre en temps réel dans les systèmes
de transmission d’information à distance.
Les propriétés des algorithmes adaptatifs sont que, d’une part, ils permettent
l’optimisation d’un système et son adaptation à son environnement sans intervention
extérieure et que, d’autre part, cette optimisation est aussi assurée en présence de
fluctuation de l’environnement au cours du temps.
Il est à noter également que le succès des techniques adaptatives est tel qu’on ne
les rencontre plus seulement en télécommunications mais aussi dans des domaines
très divers tels que détection sous-marine, détection périmétrique, reconnaissance
des formes, antennes réseaux, séismologie, instrumentation bio-médicale, traitement
de la parole et des images, identification des systèmes en automatique, etc.
Les signaux d’entrée peuvent être issus simultanément de capteurs (cas d’une
antenne adaptative, par exemple), ou bien ils peuvent représenter les différents
échantillons, pris à des instants différents, d’un seul signal.
( )
T
– entrées multiples : Y
K
= YK0 YK1 ... YKm−1
Dans le cas d’une entrée unique que nous considérerons par la suite, nous
aurions la configuration suivante.
Ecrivons la sortie Z K :
m −1
Entrée unique : Z K = ∑
i =0
λK YK −i
i
( )
T
λK = λK0 λK1 ... λKm−1 , nous pouvons utiliser une notation vectorielle unique :
Z K = Y K T λK = λKT Y K .
198 Processus stochastiques et filtrages optimaux
Notre système n’étant pas parfait, nous obtenons une erreur, celle-ci s’écrit :
ε K = DK − Z K
avec DK qui représente la sortie désirée (ou X K ), c’est-à-dire, la variable aléatoire
que l’on cherche à estimer. Le critère que nous avons choisi d’exploiter est le critère
des moindres carrés : il consiste à choisir le meilleur vecteur λK , qui minimisera
Si notre système (filtre) est linéaire et non récursif, nous aurons toujours une
fonction coût quadratique et elle pourra être représentée par une paraboloïde
elliptique (dim 2) (ou un hyperparaboloïde si la dimension est supérieure). Les
projections (isocoûts) représentées par les ellipses sur la figure ci-après sont de la
forme : aλ0 + bλ1 + cλ0 λ1 + d λ0 + eλ1 + f = 0
2 2
C ( λK ) = E (ε ) = E {( D
2
K K − ZK )
2
}
Celle-ci peut encore s’écrire :
C ( λK ) = E {( DK − λKT Y K )}
2
(λK )
∇ λ C ( λK ) =
K
∂C
∂λK
=E {( D K − λKT Y K )( −2Y )} = 0 (vect. nul de ( ! m )
K
T
⎛ ⎞
∇ λK C ( λK ) = grad C ( λK ) = ⎜⎜ ∂C ( λ0K ) ,..., ∂C (mλ−K1 ) ⎟⎟
⎝ ∂λK ∂λK ⎠
( )
T
λˆ = λˆ 0 λˆ1 ... λˆ m−1 minimise λ K → C ( λK ) et λ̂ annule grad C ( λK )
Nous retrouvons le résultat classique : l’erreur est orthogonale à l’observation
(principe de l’orthogonalité ou théorème de projection). εK ⊥ Y K
Posons R = E Y ( K
)
Y KT la matrice d’autocorrélation du signal d’entrée.
⎧ YK2 YK YK −1 … YK YK −m+1 ⎫
⎪ ⎪
⎪ Y Y YK2−1 " YK −1 YK − m+1 ⎪
(
R = E Y K Y KT ) = E ⎨ K −1 K
# # #
⎬
⎪ ⎪
⎪ YK −m+1 ⎭⎪
2
⎩YK −m +1 YK YK − m+1 YK −1
et p = E DK Y ( K
) le vecteur colonne d’intercorrélation entre la réponse désirée et
le signal d’entrée.
200 Processus stochastiques et filtrages optimaux
( )
p = E DK Y K = E ( DK YK DK YK −1 ... DK YK −m+1 )
T
( ) (
E DK Y K − E Y K Y KT λK ) =0
Soit p − Rλˆ = 0 .
λˆ = R −1 p si R est inversible.
( ) ( )
C ( λK ) = E DK2 + λKT E Y K Y KT λK − 2 E DK Y KT λK ( )
( )
ainsi C ( λK ) = E DK + λK R λK − 2 p λK .
2 T T
()
C min = C λˆ = E DK2 − pT λˆ ( )
REMARQUE.– Il est intéressant de remarquer que l’erreur et le signal d’entrée Y ne
sont pas corrélés quand λK = λˆ . En effet :
ε K = DK − λKT Y K
En multipliant les deux membres par Y et en prenant l’espérance
mathématique, nous obtenons :
E (ε KY
K
) = p − E (Y K
)
Y KT λK = p − RλK .
Filtrage adaptatif 201
Figure 6.10. Schéma de principe d’un filtre adaptatif identifiant un système déphaseur
⎡ ⎛ 2π n ⎞ ⎛ 2π
E ( Yn Yn − K ) = E ⎢sin ⎜ + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥
⎣ ⎝ N ⎠ ⎝ N ⎠⎦
2π K
= 0, 5 cos K ∈ [ 0,1]
N
⎡ ⎛ 2π n ⎞ ⎛ 2π
E ( Dn Yn − K ) = E ⎢ 2 sin ⎜ − ϕ + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥
⎣ ⎝ N ⎠ ⎝ N ⎠⎦
⎛ 2π K ⎞
= cos ⎜ −ϕ ⎟
⎝ N ⎠
202 Processus stochastiques et filtrages optimaux
⎛ 2π ⎞
⎛ YK2 YK YK −1 ⎞ ⎜ 0, 5 0, 5 cos
N ⎟
R = E⎜
⎜Y Y ⎟⎟ = ⎜ ⎟
⎝ K −1 K YK2−1 ⎠ ⎜⎜ 0, 5 cos 2π 0, 5 ⎟⎟
⎝ N ⎠
T
⎛ ⎛ 2π ⎞⎞
p = E ( DK YK DK YK −1 )
T
= ⎜ cos ϕ cos ⎜ −ϕ ⎟⎟
⎝ ⎝ N ⎠⎠
Le coût s’écrit :
2π ⎛ 2π
( )
C ( λK ) = 0,5 (λ 0 )2 + (λ1 ) 2 + λ 0 λ1 cos
N
− 2λ 0 cos ϕ − 2λ1 cos ⎜
⎝ N
⎞
−ϕ ⎟ + 2
⎠
λˆ = R −1 p
T
2 ⎛ ⎛ 2π ⎞ ⎞
λˆ = ⎜ sin ⎜ −ϕ ⎟ sin ϕ ⎟
2π ⎝ ⎝ N ⎠ ⎠
sin
N
ˆ( )
C λ =E ( D ) − p λˆ
2
K
T
( )
et ici, le calcul nous donne : C λˆ = 0 .
λˆ = R −1 p .
( ) (λ j ) .
T
λ j = λ 0j λ1j ... λ mj −1 est normal à C
K> j ; C ( λK ) < C ( λ j )
∇ λK C ( λK ) = 0
D’où l’idée d’écrire que, plus le gradient sera important, plus nous serons
éloignés du minimum et qu’il suffit de modifier le vecteur des coefficients d’une
manière récursive de la façon suivante
λK +1 = λK + µ ( −∇λ C ( λK ) ) K
(égalité dans ! )
m
∇ λ C ( λK ) = −2 E
K
(ε K
YK )
avec Y
K
( )
= YK0 YK1 ...YKm−1 notation du processus multivarié que nous avons vu
au début du chapitre 4 et cette dernière écriture de ∇ λ C
K
( λK ) est égale à :
204 Processus stochastiques et filtrages optimaux
= −2 ( p − R λK )
Justification théorique
C ( λK +1 ) − C ( λK ) = 〈∇ λ C ( λK ) , λK +1 − λK 〉 + o ( λK +1 − λK
K
)
m
où : 〈, 〉 et désignent respectivement le produit scalaire et la norme dans ! .
C ( λK +1 ) − C ( λK ) $ 〈∇ λ C ( λK ) , λK +1 − λK 〉
K
λK +1 − λK = µ ( −∇λ C ( λK ) )K
soit λK +1 = λK + µ ( −∇λ C ( λK ) ) .
K
λK +1 = λK + 2 µ E (ε K Y K ) ,
on peut écrire :
n −1
λK + n = λK + 2 µ ∑ E (ε K + jY K + j )
j =0
Filtrage adaptatif 205
En effet :
∇ λK C ( λK ) = −2 ( p − RλK )
% % %
(
∇ λK C ( λK ) = −2 p − RλK )
Les grandeurs estimées seront les données observées.
% K
Soit : p = y dK
% K
et R = y y KT
%
ainsi ∇ λ C
K
( λK ) = -2 ε K yK
% %
et λK +1 = λK + 2µε K y K
206 Processus stochastiques et filtrages optimaux
λK +1 = λK + 2 µ E (ε K YK )
devient :
% %
λK +1 = λK + 2µ ε K y K
Or, il se trouve que les itérations successives de cet algorithme récursif réalisent
d’elles-mêmes l’espérance mathématique incluse dans cette formule par moyennage
statistique [MAC 81].
Pour être mis en œuvre, cet algorithme nécessite, à chaque pas d’incrémentation
de connaître le couple DK et Z K . Or nous en avons la connaissance aux instants
K grâce au filtrage λK car
∗
Nous pouvons écrire pour n ∈ & :
% % 1 n −1
λ K + n = λK + ( 2 µ n )
n
∑ yK+ j εK+ j
j =0
( )
K+ j T
avec y = yK + j yK −1+ j ... yK −m+1+ j
On voit que si µ tend vers 0, n doit tendre vers l’infini de sorte que :
Filtrage adaptatif 207
1 n −1 K + j
∑ y εK+ j → E Y K
n j =0
( ε ) K
()
C ( λK ) = C λˆ + λˆT p + λKT RλK − 2λKT p
= C ( λˆ ) + (λˆ − λ K)
T
p + λKT RλK − λKT p
= C ( λˆ ) + (λˆ − λ K)
T
p + λKT R(λK − λˆ )
= C ( λˆ ) + (λˆ − λ K)
T
Rλˆ + (λK − λˆ )T RλK
= C ( λˆ ) + (λˆ − λ K)
T
R(λˆ − λK )
( λK ) = C ( λˆ ) + ( λK − λˆ ) ( )
T
ou C R λK − λˆ .
Posons α K = λK − λˆ .
il vient : C ( λK ) =C (λˆ + α K ) = C (λˆ ) + α KT R αK
208 Processus stochastiques et filtrages optimaux
Et facilement : ∇α
K
C ( λK ) = 2 R α K .
La matrice R étant symétrique, on sait qu’elle est diagonalisable par une matrice
orthogonale Q, c’est-à-dire :
Γ = Q −1RQ .
⎛γ 0 0 ⎞
−1 ⎜ ⎟
⎟ où les γ sont les valeurs propres
T i
Avec Q = Q et Γ = ⎜ '
⎜0 γ m −1 ⎟⎠
⎝
de R.
−1
Portons R = Q Γ Q dans la dernière écriture du coût :
()
C (α K ) = C λˆ + α KT Q Γ Q −1 α K
−1
et en posant u K = Q αK
m −1
() ()
C (uK ) = C λˆ + uTK Γ uK = C λˆ + ∑ γ i (uKi ) 2
i =0
et :
( )
T
∇uK C (u K ) = 2 Γ uK = 2 γ 0 uK0 γ 1 u1K γ m−1 uKm−1 .
i
Avec u K : composante i de u à l’instant K .
ème
vecteur gradient. Ainsi cette composante formera l’un des axes principaux des
ellipses (ou des hyperellipses).
Filtrage adaptatif 209
REMARQUE 2.– ∇u
K
C (u K ) = Q −1 ∇α C (α K ) . K
⎛3 1⎞
Soit R = ⎜ ⎟ ; p = (5 7)
T
et ( )
2
E DK = 10
⎝1 3⎠
Ainsi nous obtenons :
⎛2 0⎞
; λˆ = (1 2 ) et C ( λˆ ) = 1 .
T
Γ=⎜ ⎟
⎝0 4⎠
1 ⎛ 1 1⎞
Soit Q = ⎜ ⎟
2 ⎝ −1 1 ⎠
et C (α K ) = C ( λˆ ) + α KT R α K .
−1
⎧ 0
⎪⎪u =
1
2
(α 0
− α1 )
Avec u K = Q αK soit ⎨
⎪u 1 =
⎪⎩
1
2
(α 0
+ α1 )
α K = λK − λˆ .
λK +1 = λK + µ ( −∇ λ C ( λK ) )
K
λˆ = R p
−1
∇ λ C ( λK ) = −2 ( p − RλK )
K
R = Q Γ Q −1
Q −1α K +1 = uK +1 = ( I d − 2 µ Γ ) u K
i
(
et u K +1 = 1 − 2 µ γ
i
)u i
K
212 Processus stochastiques et filtrages optimaux
soit u K = ( I d − 2 µ Γ ) u0 .
K
( )
K
lim 1 − 2 µ γ
i
=0
K →∞
1
avec 0 < µ<
γ max
Cependant, il nécessite deux fois plus de calculs qu’un filtre transverse, car il lui
faut calculer, d’une part :
et d’autre part :
% %
λK +1 = λK + 2µε K y K soit m+1 multiplications et m additions.
On montre également que l’algorithme du LMS est le plus simple de tous ceux
qui optimisent le même critère des moindres carrés.
Par contre, il convergera plus lentement que l’algorithme dit des moindres carrés
exacts.
Même exemple de calcul que précédemment mais avec entrée bruitée, il s’agit de
construire un déphaseur avec annuleur de bruit.
Figure 6.14. Schéma de principe du déphaseur (voir figure 6.10) avec entrée bruitée
( )
E bK −i bK − j = σ 2 δ i , j
⎡⎛ ⎛ 2π ⎞ ⎞⎛ ⎛ 2π ⎞⎤
E (YK YK − n ) = E ⎢⎜ sin ⎜ K + ∅ ⎟ + bK ⎟⎜ sin ⎜ ( K − n ) + ∅ ⎞⎟ + bK −n ⎟ ⎥
⎣⎝ ⎝ N ⎠ ⎠⎝ ⎝ N ⎠ ⎠⎦
2π K
= 0,5cos + σ 2δ 0,n
N
⎡ ⎛ 2π K ⎞ ⎛ ⎛ 2π ( K − n ) ⎞ ⎞⎤
E ( DK YK − n ) = E ⎢sin ⎜ − ϕ + ∅ ⎟ ⎜ sin ⎜ + ∅ ⎟ + bK − n ⎟ ⎥
⎢⎣ ⎝ N ⎠ ⎜⎝ ⎝ N ⎠
⎟
⎠ ⎥⎦
⎛ 2π n ⎞
= cos ⎜ −ϕ ⎟
⎝ N ⎠
⎛ 0, 5 + σ 2 2π
⎞
0, 5 cos
⎜ N ⎟
R=⎜ ⎟
⎜⎜ 0, 5 cos 2π 0, 5 + σ
2 ⎟⎟
⎝ N ⎠
T
p = E ( DK YK
⎛
DK YK −1 ) = ⎜ cos ϕ
T ⎛ 2π − ϕ ⎞ ⎞
cos ⎜ ⎟⎟
⎝ ⎝ N ⎠⎠
λˆ = R
−1
p
⎛ 2 1 + 2σ 2 cos ϕ − ⎛ cos ϕ + cos ⎛ 4π − ϕ ⎞ ⎞ ⎞
1⎜
( ) ⎜
⎝
⎜
⎝N
⎟⎟⎟
⎠⎠
λˆ = ⎜ ⎟
∆⎜ 2π ⎛ 2π ⎞
⎜ −2 cos cos ϕ + 2 (1 + 2σ ) cos ⎜ − ϕ ⎟ ⎟
2 ⎟
⎝ N ⎝ N ⎠⎠
avec :
2π
( )
2
∆ = 1 + 2σ 2 − cos 2
N
Filtrage adaptatif 215
et :
⎛ ⎛ 4π − 2ϕ ⎞ ⎞ − 1
(1 + 2σ )(1 + 4σ ) − 2σ
2 2 2
⎜ 2 cos ϕ + cos ⎜
⎝
2
⎝ N
⎟⎟
⎠⎠
C ( λˆ ) =
∆
avec :
2π
( ) ( )
C ( λK ) = 2 + 1 + 2σ 2 0, 5 (λ 0 ) 2 + (λ 1) 2 + λ 0 λ 1cos
N
− 2λ 0 cos ϕ
⎛ 2π ⎞
− 2λ 1cos ⎜ −ϕ ⎟
⎝ N ⎠
et C (α K ) = C ( λˆ ) + α KT R α K ou C ( u K ) = C (λˆ ) + u T
K Γ uK .
L’étude de la convergence de cet algorithme est beaucoup plus délicate que celle
du gradient déterministe, le lecteur pourra se référer à la bibliographie [BOL 87].
M
Ainsi BK = ∑ an X K −n .
n =0
⎛ M ⎞
E ⎜ X K −( ∑ an X K − n ⎟ = E ( X K −( BK ) .
⎝ n =0 ⎠
Si ( > 0 alors X K −( ⊥ BK .
Ainsi, en posant :
( )
E X j X m = rj − m
M
∑ an rn−( = 0 pour l > 0
n =0
M ⎛ M ⎞
et ∑ nn a r = E ( X B
K K ) = E ⎜ K ∑ an X K − n
B − ⎟ BK = σ B
2
n =0 ⎝ n =1 ⎠
⎛ r0 r1 " rM ⎞ ⎛ 1 ⎞ ⎛ σ B2 ⎞ ← ( =0
⎜r ⎟⎜ ⎟ ⎜ ⎟
⎜1 r0 rM −1 a1
⎟⎜ ⎟ = ⎜0 ⎟ ⎫
⎪
⎜# ⎟ ⎜# ⎟ ⎜# ⎟ ⎬ ( ∈ [1, M ]
⎜⎜ r r ⎟⎜ ⎟ ⎜⎜ ⎟⎟ ⎪
⎝ M M −1 r0 ⎟⎠ ⎝ aM ⎠ ⎝0 ⎠ ⎭
X K = − a X K −1 + BK
Filtrage adaptatif 217
⎧⎪r0 + a1 r1 = σ B2
⎨
⎪⎩r1 + a1 r0 = 0
r1
d’où : a1 = a = − ,
r0
et (
σ B2 = σ X2 1 − a 2 )
Estimons cette valeur du paramètre « a » à l’aide d’un prédicteur et en utilisant
un algorithme LMS.
218 Processus stochastiques et filtrages optimaux
ε K = DK − Z K et DK = X K
ou ε K = DK − λ X K −1 YK = X K −1
( )
soit E X K − λˆ X K −1 X K −1 = 0
ou r1 = λˆr0
r
d’où λˆ = 1 = − a
r0
r
Soit λˆ = 1
r0
() ( )
C λˆ = E DK2 − pT λˆ
nous donne :
()
C λˆ = σ X2 (1−a2 )
ε K = DK − λ 0 X K −1 − λ1 X K −2
Filtrage adaptatif 219
( 0 1
)
et E X K − λˆ X K −1 − λˆ X K − 2 ( X K −1 X K −2 )T = (0 0)T
2
rr −rr r r −r
Ainsi : λˆ = 1 02 12 2 et λˆ = 2 20 12
0 1
r0 − r1 r0 − r1
⎛r r1 ⎞
⎟ et p = ( r1 r2 ) avec R λ = p
R=⎜ 0
T ˆ
⎝ r1 r0 ⎠
%Prédicteur d'ordre 1
clear all;
close all;
N=500;
t=0:N;
a=-rand(1);%valeur à estimer
sigmav=0.1;%ecart type du bruit
r0=(sigmav)^2/(1-a^2);%E[u(k)^2]
r1=-a*r0;%représente P
wopt=r1/r0;%solution optimale de Wiener
Jmin=r0-r1*wopt;
mu=0.1;%paramètre de convergence
w(1)=0;
u(1)=0;
vk=sigmav*randn(size(t));
for k=1:length(t)-1;
u(k+1)=-a*u(k)+vk(k+1);
220 Processus stochastiques et filtrages optimaux
e(k+1)=u(k+1)-w(k)*u(k);
w(k+1)=w(k)+2*mu*u(k)*e(k+1);
E(k+1)=e(k+1)^2;%erreur carrée instantanée
J(k+1)=Jmin+(w(k)-wopt)'*r0*(w(k)-wopt);
end
%trace
subplot(3,1,1)
plot(t,w,'k',t,wopt,'k',t,a,'k');grid on
title('estimation de lambda, lambda opt. et "a"')
subplot(3,1,2)
plot(t,E,'k',t,J,'k',t,Jmin,'k');grid on
axis([0 N 0 max(E) ])
title('err.inst.,coût et cout min')
subplot(3,1,3)
plot(w,E,'k',w,J,'k');grid on
axis([0 1.2*wopt 0 max(J)])
title('err.inst.et coût en fonct. de lambda ')
Prédicteur d'ordre 2
clear all;
close all;
N=1000;
t=0:N;
a1=-0.75;%valeur à estimer
a2=0.9;%idem
sigmav=0.2;%ecart type du bruit
r0=((1+a2)*((sigmav)^2))/(1+a2-a1^2+a2*(a1^2)-a2^2-a2^3);%E[u(k)^2]
r1=(-a1*r0)/(1+a2);%représente P2
r2=(r0*(a1^2-a2^2-a2))/(1+a2);%représente P1
w1opt=(r0*r1-r1*r2)/(r0^2-r1^2);
w2opt=(r0*r2-r1^2)/(r0^2-r1^2);
wopt=[w1opt w2opt]';%solution optimale de Wiener
p=[r1 r2]';
Jmin=r0-p'*wopt ;
R=[r0 r1;r1 r0];
mu=0.2;%paramètre de convergence
w1(1)=0;w2(1)=0;w1(2)=0; w2(2)=0;
u(1)=0;u(2)=0;
vk=sigmav*randn(size(t));
for k=2:length(t)-1;
u(k+1)=-a1*u(k)-a2*u(k-1)+vk(k+1);
e(k+1)=u(k+1)-w1(k)*u(k)-w2(k)*u(k-1);
w1(k+1)=w1(k)+2*mu*u(k)*e(k+1);
w2(k+1)=w2(k)+2*mu*u(k-1)*e(k+1);
w(:,k)=[w1(k) w2(k)]';
J(k+1)=Jmin+(w(:,k)-wopt)'*R*(w(:,k)-wopt);
end
%tracé
w(:,N)
delta=a1^2-4*a2;
z1=(-a1+(delta^.5))/2;
z2=(-a1-(delta^.5))/2;
222 Processus stochastiques et filtrages optimaux
subplot(2,2,1)
plot(t,w1,'k',t,w1opt,'b',t,a1,'r');grid on
title('est. lambda0, lambda0.opt. et "a0"')
subplot(2,2,2)
plot(t,w2,'k',t,w2opt,'b',t,a2,'r');grid on
title('est.lambda1, lambda1.opt et "a1"')
subplot(2,2,3)
plot(t,J,'-',t,Jmin,'r');grid on
axis([0 N 0 max(J)])
title('Cout et Cout min')
subplot(2,2,4)
plot (w1,J,'b',w2,J,'r');grid on
title('évolution des coefficients fonct. du coût ')
⎛2 1⎞
R=⎜ ⎟ matrice de corrélation des données,
⎝1 2⎠
p = ( 7 8 ) vecteur d’intercorrélation
T
( )
et E DK = 42
2
D K étant la sortie désirée.
1) Donner l’expression du coût C .
2) Calculer le vecteur optimal λ̂ .
3) Donner l’expression du coût minimum C (λ̂ ).
4) Calculer les valeurs propres de R.
5) Déterminer les vecteurs propres de telle sorte que la matrice Q de vecteurs
propres soit « normalisée » (c’est-à-dire QQ = I . ), ces vecteurs représentant les
T
Solution 6.1.
2) λˆ = ( 2 3)
T
( )
3) C λˆ = 4
4) γ 1 = 1 γ2 = 3
2 (1 − 1) 2 (1 1)
T T
5) u1 = 1 u2 = 1
6) 0<µ <1 3
CHAPITRE 7
Le filtre de Kalman
Le but du filtrage que nous allons étudier consiste à « estimer au mieux » au sens
du critère classique des moindres carrés, un processus discret X K gouverné par une
équation de la forme :
X K +1 = A( K ) X K + C ( K ) N K (équation d’état).
Ce processus (physique, biologique, etc.) appelé processus d’état est celui qui
intéresse l’utilisateur.
YK = H ( K ) X K + G ( K ) WK (équation d’observation)
Si le système observable est connu mais non linéaire une solution approchée peut
être donnée en opérant une linéarisation des équations d’état et d’observations
autour de la dernière valeur estimée. Dans ce cas nous donnerons les équations de
l’algorithme de Kalman en fin de chapitre sans les démontrer. Le lecteur pourra
trouver des compléments dans la bibliographie [GIM 82, RAD 84].
Nous avons démontré que la meilleure estimée d’un processus, à partir d’une
fonction g d’observation, c’est-à-dire Xˆ = gˆ (Y1 ,..., YK ) représentée par la
projection orthogonale de X sur un espace de Hilbert que nous avons défini est
l’espérance conditionnelle de la grandeur X , sachant l’ensemble des variables
aléatoires d’observations Y1...YK c’est-à-dire :
K
Xˆ = λˆ 0 + ∑ λˆ j Y j
j =1
Rappelons que nous notons par H KY-1 l’espace vectoriel réel engendré par ces
variables aléatoires, c’est-à-dire :
H KY-1 = { K −1
∑ λ j Yj λ j ∈ !
j =1
}
Exemple de l’estimation linéaire [HAY 91]
Il est clair que nous pouvons donner une estimée d’une grandeur d’un processus
à partir d’observations passées de ce processus.
K −1
I K = YK − ∑ λˆi YK −i
i =1
K −1
et ∑ λˆ i YK −i représente l’estimation.
i =1
Le filtre de Kalman 229
= Pr oj Y YK = YˆK |K −1 et
H K-1
I K = YK − YˆK |K −1
Xˆ K K = Pr oj XK
H KY
K
Xˆ K K = ∑ b j Y j estimée de X K .
j =1
K −1
I K = YK − ∑ λiK −1 YK −i avec λiK −1 : coefficients du prédicteur d’ordre K −1
i =1
I1 = Y1 avec Yˆ1/ 0 = 0
I 2 = Y2 − λ11Y1
I 3 = Y3 − λ12 Y2 − λ22 Y1
!
I K = YK − λ1K −1YK −1 − ... − λKK−−11Y1
−1
Ainsi Y = M I.
230 Processus stochastiques et filtrages optimaux
Il est clair que l’égalité Xˆ K K = b′M I peut aussi se mettre sous la forme :
−1
K
Xˆ K K = ∑ d j I j
j =1
Ε( XK I j )
Montrons maintenant que : d j = j ∈ [1, K ]
Ε(I j I j )
Preuve :
( )
C’est-à-dire : E X K I j = E Xˆ K | K I j ( )
K
( )
D’où finalement : E X K I j = E Xˆ K |K I j = ( ) ∑d E (I I )
i =1
i i j
Le filtre de Kalman 231
et puisque I i ⊥ I j si i ≠ j il vient : d j =
( )
E XKI j
E (I jI j )
K
Exploitons l’écriture de la filtrée : Xˆ K K = ∑ d j I j
j =1
K −1
et Xˆ K K = ∑ d j I j + dK IK .
j =1
Xˆ K K = Xˆ K −1 K −1 + d K I K .
( )
n
X K : multivecteur d’ordre n ∈ L2
( )
m
YK : multivecteur d’ordre m ∈ L2
( )
m
I K : multivecteur d’ordre m ∈ L2
I K = YK − H ( K ) Xˆ K K −1
232 Processus stochastiques et filtrages optimaux
K −1
ou I K = YK − H ( K ) ∑ Λ
ˆ Y
j j
j =1
Réciproquement :
Y1 = I1
ˆ I
Y2 = I 2 + H ( 2 ) Λ 1 1
Y3 = I 3 + H ( 3) Λ1 I1 + H ( 3) Λ
ˆ ˆ I + H ( 3) Λ
2 2
ˆ H ( 2) Λ
2
ˆ I
1 1
!
– YK : multivecteur d’observations ( m × 1)
X K +1 = A ( K ) X K + C ( K ) N K
( )
E N K N Tj = δ K , j QK : ( "×" )
YK = H ( K ) X K + G ( K ) WK
( )
E WK W jT = δ K , j RK ( p × p)
G ( K ) : matrice déterministe (m × p )
( )
E N K W jT = 0 ∀K et j .
X K ⊥ Wj K, j > 0.
Y j ⊥ WK 0 ≤ j ≤ K −1
et Yj ⊥ NK 0≤ j≤K
I K = YK − H ( K ) Pr oj X K = YK − H ( K ) Xˆ K |K −1 : ( m×1)
H KY −1
⎪⎧ K −1
⎪⎫
et : H KY-1 = ⎨ ∑ Λ jY j Λj matrice n × m ⎬⎪ .
⎪ j =0
⎩ ⎭
Par ce choix des Λ j , l’espace H KY−1 est adapté à l’ordre des multivecteurs
I K ⊥ Y j ⎫⎪
⎬ pour j ∈ [1, K -1]
I K ⊥ I j ⎪⎭
Entre deux mesures, la dynamique du système fait évoluer les grandeurs d’état.
Aussi la prédite du vecteur d’état à l’instant K , connaissant les mesures (Y1...YK −1 )
Xˆ K |K −1 = E ( X K | Y1 ,… , YK −1 ) = Pr oj XK
HY
K −1
= Pr oj
HY
( A( K − 1) X K −1 + C ( K − 1) N K −1 | Y1 ,… , YK −1 )
K −1
= A( K − 1) Xˆ K −1|K −1 + 0
Xˆ = A ( K −1) Xˆ
K K −1 K −1 K −1
YK − H ( K ) Xˆ
K K −1
⎛ ⎞
I K = H ( K ) ⎜ X K − Xˆ + G ( K ) WK
⎝ K K −1 ⎟
⎠
et I K = H ( K ) X$ + G ( K ) WK
K K −1
T
⎛ ⎞⎛ ⎞
Cov I K = E ( I K I KT ) = E ⎜ H ( K ) X$
K K −1
+ G ( K ) WK ⎟ ⎜ H ( K ) X$
K K −1
+ G ( K ) WK ⎟
⎝ ⎠⎝ ⎠
c'est-à-dire ou Cov I K = H ( K ) PK K −1 H T ( K ) + G ( K ) RK GT ( K )
⎛ ⎞
où P = Ε ⎜ X$ X$ T ⎟ est appelée matrice de covariance de l’erreur de
K K −1 ⎝ K K −1 K K −1 ⎠
prédiction.
7.3.5. Estimation
Dans le cas scalaire, nous avions établi une relation entre l’estimée d’une
grandeur X K et les innovations I K . Nous pouvons, bien évidemment étendre cette
approche au cas des processus multivariés, c’est-à-dire que l’on peut écrire :
K
Xˆ = ∑ d j (i ) I j
iK
j =1
(
Puisque E X$ i|K I j
T
) = E (( X i ) )
− Xˆ i|K I Tj = 0 ∀j ∈ [1, K ]
(
on a : E X i I j
T
) = E ( Xˆ T
i| K I j ) et vu la forme de Xˆ i| K .
⎛ K ⎞
On a encore E X i I j ( T
) = E ⎜⎜ ∑ d p (i ) I I T
p j ⎟⎟
.
⎝ p =1 ⎠
( ) (
E X i I Tj = d j ( i ) E I j I Tj = d j ( i ) CovI j . )
( ) ( CovI )
−1
Finalement : d j ( i ) = E X i I j
T
j .
K
( ) ( Cov I )
−1
Xˆ i K = ∑ Ε X i I Tj j Ij
j =1
K −1
( ) ( Cov I )
−1
= ∑ Ε X i I Tj j Ij
j =1
(
+ Ε X i I KT ) ( Cov I K )−1 I K
Nous allons maintenant donner les équations de Kalman. Appliquons l’égalité
précédente à la filtrée Xˆ K +1 K +1 , il vient :
K +1
( ) ( Cov I )
−1
Xˆ K +1 K +1 = ∑ Ε X K +1 I Tj j Ij
j =1
K
( ) ( Cov I )
−1
= ∑ Ε X K +1 I Tj j Ij
j =1
(
+ Ε X K +1 I KT +1 ( Cov I K +1 ) ) −1
I K +1
238 Processus stochastiques et filtrages optimaux
X K +1 = Α ( K ) X K + C ( K ) N K
Donc :
( ) (
Ε X K +1 I Tj = Α ( K ) Ε X K I Tj . )
L’estimée de X K +1 connaissant la mesure à cet instant K+1 s’écrit alors :
K
( ) ( Cov I )
−1
Xˆ K +1 K +1 = Α ( K ) ∑ Ε X K I Tj j Ij
j =1
( )
+ Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1
−1
Exploitons l’écriture :
I K +1 = H ( K +1) X$ K +1 K + G ( K +1) WK +1 .
( ) −1
Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1 .
⎛
( ) ⎞
T
Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε ⎜ X K +1 H ( K +1) X$ K +1 K + G ( K +1) WK +1 ⎟
⎝ ⎠
. ( Cov I K +1 ) I K +1
−1
Le filtre de Kalman 239
Par ailleurs nous avons montré que la meilleure estimation à un instant donné,
connaissant les mesures du passé, que nous écrivons Xˆ K +1 K , est égale à la
Xˆ K +1 K = ProjH Y X K +1 = Pr oj
K HY
( Α (K ) X K + C (K ) NK )
K
Xˆ K +1 K = Pr oj
HY
( Α (K ) X K + C (K ) NK )
K
et comme : Y j ⊥ NK ∀ j ∈[1, K ]
il vient Xˆ K +1 K = Α ( K ) Xˆ K K ; Α ( K ) carrée
( ) −1
Xˆ K +1 K +1 = Xˆ K +1 K + Ε X K +1 X$ KT +1 K H (TK +1) ( Cov I K +1 ) I K +1
Comme :
Xˆ K +1 K ⊥ X$ K +1 K
alors :
( ( )
Xˆ K +1 K +1 = Xˆ K +1 K + E X K +1 − Xˆ K +1 K X$ KT +1 K H T ( K +1) )
. ( Cov I K +1 ) I K +1
−1
Soit :
−1
Xˆ K +1 K +1 = Xˆ K +1 K + PK +1 K H T ( K +1) ( Cov I K +1 ) I K +1
240 Processus stochastiques et filtrages optimaux
−1
K ( K +1) = PK +1 K H T ( K +1) ( Cov I K +1 )
avec :
( )
−1
K ( K+1) = PK+1K HT ( K+1) H ( K+1) PK+1K H(TK+1) + G( K+1) RK+1GT ( K+1)
(
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K )
Cette expression de la meilleure filtrée représente une autre équation du filtre de
Kalman.
En effet, si la mesure est très bruitée, ce qui signifie que les éléments de la
matrice RK sont importants, alors le gain sera relativement faible, et l’impact de
cette mesure sera minimisé pour le calcul de la filtrée.
En revanche, si la mesure est peu bruitée, nous aurons l’effet inverse ; le gain
sera important et son effet sur la filtrée sera appréciable.
Nous allons à présent « apprécier » cette filtrée en calculant l’erreur que nous
commettons, c’est-à-dire en calculant la matrice de covariance de l’erreur de filtrage.
Le filtre de Kalman 241
= tr E ⎡( X K +1 − Z )( X K +1 − Z ) ⎤
2 T
Z → tr X K +1 − Z
⎣ ⎦
Y
∈ H K+1 ∈!
( )
2
tr X K +1 − Xˆ K +1 K +1 = tr E X$ K +1 K +1 X$ TK +1 K +1
(
NOTATION.– dans la suite la matrice E X$ K +1 K +1 X$ K +1 K +1
T
) est notée P K +1 K +1
P et P
K +1 K +1 K +1 K
X$ K +1|K +1 = X K +1 − Xˆ K +1 K +1
(
= X K +1 − Xˆ K +1 K − K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K )
= X K +1 − Xˆ K +1 K − K ( K +1)
que : X$ K +1| K ⊥ WK +1 on a :
peut s’écrire :
(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) ( CovI K +1 )
−1
)
( CovI K +1 ) ( K ( K + 1) − PK +1 K H (TK +1) ( CovI K +1 ) )
−1 T
( −1
+ I d − PK +1 K H T ( K +1) ( CovI K +1 ) H ( K +1) PK +1 K )
−1
Mais on a vu que : K ( K +1) = PK +1 K H ( K +1) ( Cov I K +1 ) .
T
(
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K)
Cette « mise à jour » de la matrice de covariance par itération est une autre
équation du filtre de Kalman.
(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) J −1 ( K +1) )
( )
T
J ( K +1) K ( K + 1) − PK +1 K H (TK +1) J (−K1 +1)
( )
+ I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K
avec :
M J M T avec J symétrique.
(
PK +1 K +1 = M J M T + I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K)
Le minimum de la trace sera donc atteint quand M sera nul soit :
( )
−1
K ( K +1) = PK +1 K H T ( K +1) H ( K +1) PK +1 K H (TK +1) + G ( K +1) RK +1G T ( K +1)
( )
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K
on obtient le minimum de la tr PK +1 K +1 .
(
Soit : Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 )
Comme pour la « meilleure » filtrée, la meilleur prédite s’écrit en fonction de
l’estimée prédite précédente pondérée du gain et de l’innovation apportée par la
mesure YK . Cette équation de Kalman est utilisée non pas en filtrage mais en
prédiction. Il nous faut à présent établir une relation sur l’évolution de la matrice de
covariance des erreurs d’estimation.
(
PK K −1 = Ε X$ K K −1 X$ KT K −1 )
ou par incrémentation :
avec :
(
PK +1 K = Ε X$ K +1 K X$ KT +1 K )
X$ K +1 K = X K +1 − Xˆ K +1 K
Xˆ K +1 K = Α ( K ) Xˆ K K −1 + A ( K ) K ( K ) I K
( ) ( )
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 + C ( K ) N K
Le filtre de Kalman 245
Mais YK = H ( K ) X K + G ( K ) WK .
Donc :
( ) (
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) H ( K ) X K − Xˆ K K −1 − )
Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K
X$ K +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) X$ K K −1 −
Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K
X$ K K −1 ⊥ NK
et X$ K K −1 ⊥ WK
Donc :
PK +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T
+ C ( K ) QK C T ( K ) + Α ( K ) K ( K ) G ( K ) RK GT ( K ) K T ( K ) ΑT ( K )
PK +1 K = Α ( K ) PK K ΑT ( K ) + C ( K ) QK C T ( K ) .
avec PK K = ( I d − K ( K ) H ( K ) ) PK K −1
qui représente la matrice de covariance de l’erreur de filtrage, également
indépendante de YK . Voir Annexe A pour détails de calcul.
246 Processus stochastiques et filtrages optimaux
Α ( K ) , QK , H ( K ) , RK , C ( K ) et G ( K )
PK+1 K = Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )
( )
−1
K ( K+1) = PK+1 K HT ( K+1) H ( K+1) PK+1 K HT ( K +1) + G ( K+1) RK+1 GT ( K+1)
PK+1K+1 = ( Id − K ( K+1) H ( K+1) ) PK+1 K
Xˆ K+1K = Α( K ) Xˆ K K
( )
T T −1
ou K ( K + 1) = PK +1 K +1 H ( K + 1) G ( K +1) RK +1G ( K +1)
T
si G ( K +1) RK +1G ( K +1) est inversible.
I K +1 = YK +1 − H ( K + 1) Xˆ K +1 K
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K + 1) I K +1
Le filtre de Kalman 247
C’est par une nouvelle mesure que l’innovation calculée permettra, pondérée par
le gain au même instant, de connaître la meilleure filtrée.
(
Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1
%&&&'&&&(
)
IK
Si :
X K +1 = A ( X K , K ) + C ( K ) N K
et YK = H ( X K , K ) + G ( K ) WK
Alors :
° °
PK +1 K = Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )
−1
⎛°
° ° ⎞
K K +1 = PK +1 K Η K +1 ⎜ Η K +1 PK +1 K ΗT ( K +1) + G ( K +1) R ( K +1) GT ( K +1) ⎟
( ) ( ) T
( )
⎜ ⎟
⎝ ⎠
⎛ ° ⎞
PK +1 K +1 = ⎜ Id − K ( K +1) Η ( K +1) ⎟ PK +1 K
⎝ ⎠
) ⎛ ⎞
X K +1 K = A ⎜ Xˆ , K ⎟
⎝ K K ⎠
IK +1 = Y − H Xˆ
K +1 (
, K +1K +1 K )
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) I K +1
° ∂A ( X K , K )
avec Α (K ) =
∂X K X = Xˆ K K
K
° ∂H ( X K +1, K +1)
et Η ( K +1) =
∂X K +1 X = Xˆ K +1 K
K +1
Enoncé 7.1.
Solution 7.1.
1+σ 2 ⎛1⎞
1) K (1) = ⎜ ⎟
2 + 2σ 2 + σ 12 ⎝ 1 ⎠
2) Xˆ 1|1 = K (1)Y1
Enoncé 7.2.
t
x1 ( t ) = ∫ x2 (τ ) dτ + x1 ( 0 )
0
X K2 = X K2 −1 + N K −1 .
Y ( K ) = H ( K ) X ( K ) + WK
Solution 7.2.
⎛ 1 1⎞ ⎛0 0⎞
1) A = ⎜ ⎟ ; Q=⎜ ⎟ ; H = (1 0 )
⎝ 0 1⎠ ⎝0 1⎠
⎛ 2 3⎞
2) X̂ 1|1 = ⎜ ⎟ Y1
⎝1 3⎠
On veut estimer deux positions de cibles par une seule mesure. Ces positions
X 1K 2
et X K forment le vecteur d’état :
( )
T
X K = X 1K X K2
YK = X 1K + X K2 + WK
Afin de simplifier les calculs, on se placera dans le cas d’une cible immobile :
X K +1 = X K = X .
( )
– P0|0 = C ov X$ , X$ = Id matrice identité ;
– R = 0,1 ;
– y = 2, 9 (mesure) et Xˆ 0|0 = ( 0 0) .
T
2
4) Donner l’estimée au sens du minimum dans L du vecteur d’état X K .
x$ = x$K |K = xK − xˆ K |K .
concluez.
Solutions 7.3.
1) A = I d H = (1 1)
2) K = (1 2,1 1 2,1)
T
252 Processus stochastiques et filtrages optimaux
⎛ 1,1 2,1 −1
2,1 ⎞
3) P1|1 = ⎜ ⎟⎟
⎜ −1 1,1
⎝ 2,1 2,1 ⎠
( )
T
5) x$ K = x$ K
1
x$ K2 = ( −0, 38 − 0, 62 )T
6) var X$ K = var X$ K = 0, 52
1 2
Enoncé 7.4.
X K +1 = X K .
RK = ⎛⎜ O1 σO2 ⎞⎟ .
σ2
⎝ 2 ⎠
Posons D = σ 1 + σ 2 + σ 1 σ 2 .
2 2 2 2
Le filtre de Kalman 253
σ 12 σ 22
3) En posant σ = 2
2
donner P1|1 la covariance de l’erreur d’estimation à
σ 1 +σ 22
l’instant « 1 » en fonction de σ .
Solutions 7.4.
⎛ σ 12 σ2 ⎞
2
1) K (1) = ⎜ ⎟
⎝ D D ⎠
(
2) Xˆ 1|1 = σ 2 Y1 + σ 1 Y1
2 1 2 2
)/ D
σ2
3) P1|1 =
1+σ
2
Enoncé 7.5.
La distance fixe d’un objet est évaluée par 2 mesures radar de qualités
différentes.
E ( N1 ) = 0 et var ( N1 ) = σ 12 = 10-2
E ( N 2 ) = 0 et var ( N 2 ) = w (scalaire)
Solutions 7.5.
1) rˆ1 = xˆ1|1 = y1
σ 12 100 wy1 + y2
2) rˆ2 = xˆ2|2 = y1 + ( y2 − y1 ) =
σ 12 +w 100 w + 1
Annexe A
Montrons que : PK +1 K = A ( K ) PK K A ( K ) + C ( K ) QK C ( K )
T T
PK +1 K = Α ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T
+ C ( K ) QK C(TK ) + Α ( K ) K ( K ) G ( K ) RK G T ( K ) K T ( K ) ΑT ( K )
avec :
K ( K ) = PK K −1 H T ( K ) ( Cov I K )
−1
et :
Cov I K = H ( K ) PK K −1 H (TK ) + G ( K ) RK G T ( K )
Pour alléger les écritures, nous allons, supprimer les indice K quand il n’y aura
pas d’ambiguïté en posant P1 = PK +1 K , P0 = PK K −1 et I = I K
( )
P1 = A I d − KH P0 ( Α − ΑKH ) + C Q C T + Α K G R G T K T ΑT
T
K = P0 H T ( Cov I )
−1
Cov I = H P0 H T + G R GT
Ainsi :
G R G T = Cov I − H P0 H T
K G R G T K T = P0 H T ( Cov I )
−1
( Cov I − H P 0 H T ) ( Cov I )
−1T
H P0T
(
= P0 H T − P0 H T ( Cov I ) H P0 H T
−1
) ( Cov I ) −1T
H P0T
KGRGT K T = P0 H T ( cov I )
−1T
HP0T − P0 H T ( cov I ) HP0 H T ( cov I )
−1 −1T
HP0T
P1 = AP0 AT − AKHP0 AT − AP0 H T K T AT + AKHP0 H T K T AT + CQC T +
−1T −1 −1T
(+ P0 H T ( cov I ) HP0T − P0 H T ( cov I ) HP0 H T ( cov I ) HP0T ) AT
−1 −1T
P1 = AP0 AΤ − A P0 H T ( Cov I ) HP0 AT − AP0 H T ( Cov I ) HP0T AT
!""#""$
K
−1 −1T
+ AP0 H Τ
( Cov I ) HP0 H T ( Cov I ) HP0T AT + CQC T
(
+ A P0 H Τ ( Cov I )
−1T −1
HP0T − P0 H T ( Cov I ) HP0 H T ( Cov I )
−1T
)
HP0T AT
⎣ (
ou : P1 = A ⎡ I d − KH P0 ⎤ A + CQC
⎦ ) T T
Annexes 257
PK +1 K = A ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ) AT ( K ) + C ( K ) QK C T ( K )
!""""#"""" $
PK K
Ainsi :
PK +1 K = A ( K ) PK K AT ( K ) + C ( K ) QK C T ( K )
avec :
PK K = ( I d − K ( K ) H ( K ) ) PK K −1
Annexe B
( )
PK K = Ε X% K K X% TK K = PK K −1 − K ( K ) H ( K ) PK K −1
(
= Id − K ( K ) H ( K ) P ) K K −1
258 Processus stochastiques et filtrages optimaux
Preuve :
PK |K = (
E X% K |K X% TK |K )
Il vient avec X% K | K = X K − Xˆ K |K et Xˆ K K = Xˆ K K −1 + K ( K ) I K
Soit X% K K = X K − Xˆ K K −1 − K ( K ) I K
!"
"#""
$
X% K K −1
( ) ( )
PK K = PK K −1 − K ( K ) Ε I K X% KT K −1 − Ε X% K K −1 I KT K (TK )
+ K ( K ) Ε ( I K I KT ) K T ( K )
( ) (
Ε X% K K −1 I KT = Ε X K − Xˆ K K −1 I KT )
Or I j ⊥ I K et I j ⊥ YK j ∈ [1, K − 1]
donc Xˆ K K −1 ⊥ I K
Soit :
( ) ( ) (
Ε X% K K −1 I KT = Ε X K I KT = E A−1 ( K ) ( X K +1 − C ( K ) N K ) I KT )
(
Alors : Ε X K I K = Ε A
T
) ( −1
( K ) X K +1 I KT )
Car Ε ( N K ) = 0
Annexes 259
(
Ε ( X K +1 I KT ) = E ( A ( K ) X K + C ( K ) N K ) H ( K ) X% K |K −1 + G ( K )WK )
T
= ( )
E A ( K ) X K X% TK |K −1 H T ( K )
car : N K ⊥ WK et N K ⊥ X% K |K −1 = X K − Xˆ K |K −1
( T
) ( )
Par ailleurs : E X K X% K |K −1 = E Xˆ K |K −1 + X% K |K −1 X% K |K −1 = PK |K +1
T
Car Xˆ K |K −1 ⊥ X% K |K −1
Ainsi il vient :
( )
Ε X% K K −1 I KT = PK K −1H T ( K )
donc :
PK K = PK K-1 − K ( K ) H ( K ) PKT K −1
− PK K −1H T ( K ) K T ( K )
+ K ( K ) ( Cov I K ) K T ( K )
avec K ( K ) = PK K −1 H ( K ) ( Cov I K )
T −1
après simplification et en notant que
PK K = PK K −1 − K ( K ) H ( K ) PK K −1
ou :
PK K = [ I d − K ( K ) H ( K ) ] PK K −1
CQFD
260 Processus stochastiques et filtrages optimaux
clear
t=0:500;
R0=1;
constante=rand(1);
n1=randn(size(t));
y=constante+n1;
subplot(2,2,1)
%plot(t,y(1,:));
plot(t,y,'k');% en N&B
grid
title('capteur')
xlabel('temps')
axis([0 500 -max(y(1,:)) max(y(1,:))])
for i=2:length(t)
K=P(i-1)*inv(P(i-1)+R);
x(i)=x(i-1)+K*(y(:,i)-x(i-1));
P(i)=P(i-1)-K*P(i-1);
end
err=constante-x;
subplot(2,2,2)
plot(t,err,'k');
grid
title('erreur');
xlabel('temps')
Annexes 261
subplot(2,2,3)
plot(t,x,'k',t,constante,'k');% en N&B
title('x extimée')
xlabel('temps')
axis([0 500 0 max(x)])
grid
subplot(2,2,4)
plot(t,P,'k');% en N&B
grid,axis([0 100 0 max(P)])
title('variance erreur estimation')
xlabel('temps')
L'objectif de cet exemple est d'extraire une sinusoîde amortie dans du bruit.
Conditions initiales :
REMARQUE.– Le programme proposé n'est pas le plus court et le plus rapide au sens
du temps CPU, il est détaillé pour permettre une meilleure compréhension.
clear
%simulation
a=0.05;
w=1/2*pi;
Te=0.005;
Tf=30;
Ak=exp(-a*Te)*[cos(w*Te) -sin(w*Te);sin(w*Te) cos(w*Te)];%matrice d'état
Hk=eye(2);%matrice d'observations
t=0:Te:Tf;
%X1
X1=10*exp(-a*t).*cos(w*t);
%X2
X2=10*exp(-a*t).*sin(w*t);
Xk=[X1;X2];% vecteur d'état
%bruit de mesures
sigmav1=100;
sigmav2=10;
v1=sigmav1*randn(size(t));
v2=sigmav2*randn(size(t));
Vk=[v1;v2];
Yk=Hk*Xk+Vk;%vecteur de mesures
%initialisation
sigmau1=0.1;%bruit de système
sigmau2=0.1;%idem
Annexes 263
u1=sigmau1*randn(size(t));
u2=sigmau2*randn(size(t));
%Uk=[sigmau1*randn(size(X1));sigmau2*randn(size(X2))];
Uk=[u1;u2];
Xk=Xk+Uk;
sigq=.01;
Q=sigq*[var(u1) 0;0 var(u2)];
sigp=10;
P=sigp*eye(2);%matrice de covariance d'erreur d'estimation P(0,0)
%tracé
subplot(2,3,1)
%plot(t,X1,t,X2);
plot(t,X1,'k',t,X2,'k')% en N&B
subplot(2,3,2)
%plot(t,Vk(1,:),t,Vk(2,:),'r')
plot(t,Vk(1,:),t,Vk(2,:));% en N&B
subplot(2,3,3)
%plot(t,Yk(1,:),t,Yk(2,:),'r');
plot(t,Yk(1,:),t,Yk(2,:));% en N&B
Xf=[0;0];
for k=1:length(t);
%%prediction
Gk=Pp*Hk'*inv(Hk*Pp*Hk'+Rk); % Gk=Gk(k+1)
Ik=Yk(:,k)-Hk*Xp;% Ik=I(k+1)=innovation
%meilleure filtrée
Xf=Xp+Gk*Ik; % Xf=Xest(k+1,k+1)
P=(eye(2)-Gk*Hk)*Pp;% P=P(k+1)
X(:,k)=Xf;
P1(:,k)=P(:,1);%1ère colonne de P
P2(:,k)=P(:,2);%2eme colonne de P
end
err1=X1-X(1,:);
err2=X2-X(2,:);
%%traçé
subplot(2,3,4)
%plot(t,X(1,:),t,X(2,:),'r')
plot(t,X(1,:),'k',t,X(2,:),'k')% en N&B
axis([0*Tf Tf -max(abs(X(1,:))) max(abs(X(1,:)))])
title('estimées x1 et x2')
subplot(2,3,5)
%plot(t,err1,t,err2)
plot(t,err1,'k',t,err2,'k')% en N&B
axis([0 Tf -max(abs(err1)) max(abs(err1))])
title('erreurs')
subplot(2,3,6)
%plot(t,P1(1,:),'r',t,P2(2,:),'b',t,P1(2,:),'g',t,P2(1,:),'y')
plot(t,P1(1,:),'k',t,P2(2,:),'k',t,P1(2,:),t,P2(1,:),'b')
N, R, C Ensembles numériques.
E Espérance mathématique.
p.s.
X n ⎯⎯⎯ →X Convergence p.s. de la suite X n vers X .
⋅ L2 ( )
Norme L2 .
Var Variance.
Cov Covariance.
⋅∧⋅ min ( ⋅ , ⋅) .
AT Matrice A transposée.
∇λ C Gradient de la fonction C ( λ ) .
BIBLIOGRAPHIE
[BER 98] BERTEIN J.C., CESCHI R., Processus stochastiques et filtrage de Kalman,
Editions Hermès, 1998.
[BLA 01] BLANCHET G., CHARBIT M., Signaux et images sous Matlab, Editions
Hermès, 2001.
[BOL 87] BOLAND F.M., FOLEY J.B., « Stochastic Convergence of the LMS
Algorithm in Adaptive Systems », Signal processing, North Holland 13, 1987.
[CHU 87] CHUI C.K., CHEN G. Kalman filtering, Editions Springer-Verlag, 1987.
[GIM 82] GIMONET B., LABARRERE M., KRIEF J.-P., Le filtrage et ses applications,
Editions Cépadues, 1982.
[HAY 91] HAYKIN S., Adaptive Filter Theory, Prentice Hall, 1991.
[MAC 81] MACCHI O., « Le filtrage adaptatif en télécommunications », Annales des
Télécommunications, 36, n° 11-12, 1981.
[MET 72] METIVIER M., Notions fondamentales de la théorie des probabilités,
Editions Dunod, 1972.
[MOK 00] MOKHTARI M., Matlab et Simulink pour étudiants et ingénieurs, Editions
Springer, 2000.
[RAD 84] RADIX J.-C., Filtrages et lissages statistiques optimaux linéaires, Editions
Cépadues, 1984.
[SHA 88] SHANMUGAN K.S., BREIPOHL A.M., Random Signal, John Wiley & Sons,
1988.
[THE 92] THERRIEN C.W., Discrete Random Signals and Statistical Signal
Processing, Prentice Hall, 1992.
[WID 85] WIDROW B., STEARNS S.D., Adaptive Signal Processing, Prentice Hall,
1985.
INDEX
M, N, O quadratique 209
marginales 23 moyenne 181
matrice 244 réponse impulsionnelle 179
de covariance 74 Riccati 245
de covariance de l'erreur de filtrage singulière 182
240 stabilité 211
de covariance de l'erreur de prédiction stable 212
236, 243, 244 stationnarité 101
de covariance du processus du second ordre 102, 195
d'innovation 235 stochastique 99, 213
de mesures 233
d'état 232 T, V, W
orthogonale 209 théorème
Q unitaire 209 de Paley-Wiener 184
mesure P 18 de projection 181, 199
multivariés 166 Toeplitz 203, 209
multivecteur 231, 232 trace 243
non récursif 195 trajectoire 100
orthogonal 189 tribu 16
valeurs propres 82, 208
P, Q, R, S variables aléatoires 191, 226, 227
phase minimale 184 variance 50
plan de régression 152 vecteur
prédicteur 195 aléatoire 17
prédiction 144, 195, 234 bruit de mesures 233
prédite 244 bruit de système 232
processus d'état 232
à temps discret 99 d'observations 232
de Markov 106 espérance 75
d'innovation 171 propre 82, 209
multivarié 203, 236 Wiener 179
stationnaire du second ordre 179, 180
projection 226