You are on page 1of 51

1

Analyse discriminante
Michel Tenenhaus
2
Les objectifs de lanalyse discriminante
tude dun tableau IndividusVariables :
Les individus sont dcrits par p variables X
1
,, X
p
.
Les individus sont rpartis en k classes selon les
modalits dune variable qualitative Y.
Rechercher des variables discriminantes Z
h
,
combinaisons linaires des X
j
, non corrles entre
elles, et sparant au mieux les k classes (analyse
factorielle discriminante).
Affecter une nouvelle observation une des classes
en fonction de ses valeurs de X observes (analyse
discriminante bayesienne).
3
Exemple : Qualit des vins de Bordeaux
Variables observes sur 34 annes (1924 - 1957)

TEMPERATURE : Somme des tempratures
moyennes journalires
SOLEIL : Dure dinsolation
CHALEUR : Nombre de jours de grande chaleur
PLUIE : Hauteur des pluies
QUALITE DU VIN : Bon (1), Moyen (2), Mdiocre (3)

4
Les donnes


3064 1201 10 361 2
3000 1053 11 338 3
3155 1133 19 393 2
3085 9704 467 3
3245 1258 36 294 1
3267 1386 35 225 1
3080 966 13 417 3
2974 1189 12 488 3
3038 1103 14 677 3
3318 1310 29 427 2
3317 1362 25 326 1
3182 1171 28 326 3
2998 11029 349 3
3221 1424 21 382 1
3019 1230 16 275 2
3022 12859 303 2
3094 1329 11 339 2
3009 1210 15 536 3
3227 1331 21 414 2
3308 1366 24 282 1
3212 1289 17 302 2
3361 1444 25 253 1
3061 1175 12 261 2
3478 1317 42 259 1
3126 1248 11 315 2
3458 1508 43 286 1
3252 1361 26 346 2
3052 1186 14 443 3
3270 1399 24 306 1
3198 1259 20 367 1
2904 11646 311 3
3247 1277 19 375 1
3083 11955 441 3
3043 1208 14 371 3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Temprat ure Soleil Chaleur Pluie Qualit
5
Analyse univarie
Temprature


M e a s u r e s o f A s s o c i a t i o n
. 7 9 9 . 6 3 9 T e m p r a t u r e * Q u a l i t
E t a E t a S q u a r e d
12 11 11 N =
Qualit
Mdiocre Moyen Bon
T
e
m
p

r
a
t
u
r
e
3600
3500
3400
3300
3200
3100
3000
2900
2800
R e p o r t
T e m p r a t u r e
3 3 0 6 . 3 6 1 1 9 2 . 0 6
3 1 4 0 . 9 1 1 1 1 0 0 . 0 5
3 0 3 7 . 3 3 1 2 6 9 . 3 4
3 1 5 7 . 8 8 3 4 1 4 1 . 1 8
Q u a lit
1
2
3
T o t a l
Me a n N S t d . D e v ia t io n
2
Between Groups Sum of Squares
Rapport de corrlation =
Total Sum of Squares
q =
ANOVA Table
420067.42 210033.704 27.389 .000
237722.1 31 7668.456
657789.5 33
(Combined) Between Groups
Within Groups
Total
Temprature * Qualit
Sum of
Squares df Mean Square F Sig.
6
Analyse univarie
Soleil


R e p o r t
S o le i l
1 3 6 3 .6 4 1 1 8 0 .3 1
1 2 6 2 .9 1 1 1 7 1 .9 4
1 1 2 6 .4 2 1 2 8 8 .3 9
1 2 4 7 .3 2 3 4 1 2 6 .6 2
Q ua li t
B o n
M o ye n
M d i o c r e
To ta l
M e a n N S td . D e vi a ti o n
ANOVA Table
326909.12 163454.535 25.061 .000
202192.4 31 6522.335
529101.4 33
(Combined) Between Groups
Within Groups
Total
Soleil * Qualit
Sum of
Squares df Mean Square F Sig.
M e a s u r e s o f A s s o c ia t io n
. 7 8 6 . 6 1 8 S o le i l * Q ua li t
E t a E t a S q ua r e d
12 11 11 N =
Qualit
Mdiocre Moyen Bon
S
o
l
e
i
l
1600
1500
1400
1300
1200
1100
1000
900
7
Analyse univarie
Chaleur


R e p o r t
C ha le ur
2 8 .5 5 1 1 8 .8 0
1 6 .4 5 1 1 6 .7 3
1 2 .0 8 1 2 6 .3 0
1 8 .8 2 3 4 1 0 .0 2
Q ua li t
B o n
M o ye n
M d i o c r e
To ta l
M e a n N S td . D e vi a ti o n
ANOVA Table
1646.5702 823.285 15.334 .000
1664.371 31 53.689
3310.941 33
(Combined) Between Groups
Within Groups
Total
Chaleur * Qualit
Sum of
Squares df Mean Square F Sig.
M e a s u r e s o f A s s o c i a t i o n
.7 0 5 .4 9 7C ha le ur * Q ua li t
E ta E ta S qua r e d
12 11 11 N =
Qualit
Mdiocre Moyen Bon
C
h
a
l
e
u
r
50
40
30
20
10
0
12
8
Analyse univarie
Pluie


R e p o r t
P lui e
3 0 5 .0 0 1 1 5 2 .2 9
3 3 9 .6 4 1 1 5 4 .9 9
4 3 0 .3 3 1 2 1 0 4 .8 5
3 6 0 .4 4 3 4 9 1 .4 0
Q ua li t
B o n
M o ye n
M d i o c r e
To ta l
M e a n N S td . D e vi a ti o n
M e a s u r e s o f A s s o c ia t io n
. 5 9 4 . 3 5 3 P lu i e * Q u a li t
E t a E t a S q u a r e d
ANOVA Table
97191.1702 48595.585 8.440 .001
178499.2 31 5758.039
275690.4 33
(Combined) Between Groups
Within Groups
Total
Pluie * Qualit
Sum of
Squares df Mean Square F Sig.
12 11 11 N =
Qualit
Mdiocre Moyen Bon
P
l
u
i
e
800
700
600
500
400
300
200
100
9
Analyse factorielle discriminante
Recherche de la premire variable discriminante
On recherche une premire variable discriminante centre



sparant au mieux les k classes.
On recherche des a
1j
conduisant une variable Z
1
ayant un
F ou, de manire quivalente, un q
2
maximum dans
lanalyse de la variance de Z
1
sur le facteur Y dfinissant
les classes.
On choisit comme normalisation une variance intra-classes
de Z
1
gale 1.

p
1 10 1j j
j 1
Z a a X
=
= +

10
Calcul des variables discriminantes
sur les donnes dorigine
Ca n o n i c a l Di s c r i mi n a n t F u n c t i o n Co e f f i c i e n t s
. 0 0 9 . 0 0 0
. 0 0 7 - . 0 0 5
- . 0 2 7 . 1 2 8
- . 0 0 6 . 0 0 6
- 3 2 . 8 7 6 2 . 1 6 5
Tem prat ure
S ol ei l
Chal eur
P l ui e
(Cons t ant )
12
Func t i on
Uns t andardi z ed c oeffi c i ent s
Z
1
= .009*Temprature + .007*Soleil - .027*Chaleur
- .006*Pluie - 32.876

11
Normalisation
Chaque X est centre et normalise par lcart-type
commun aux classes (racine-carre du carr moyen
intra-classes) :
1
Temprature 3157.88
X
7668.456

=
2
Soleil 1247.32
X
6522.335

=
3
Chaleur 18.82
X
53.689

=
4
Pluie 360.44
X
5758.039

=
12
Calcul des variables discriminantes sur les
donnes normalises

S t a n d a r d i z e d C a n o n i c a l
D i s c r i m i n a n t F u n c t i o n C o e f f i c i e n t s
. 7 5 0 - . 0 0 4
. 5 4 7 - . 4 3 0
- . 1 9 8 . 9 3 5
- . 4 4 5 . 4 6 9
T e m p r a t u r e
S o l e i l
C h a l e u r
P l u i e
12
F u n c t i o n
Z
1
= .750*X
1
+ .547*X
2
- .198*X
3
- .445*X
4

13
Analyse de la variance de Z
1
sur la qualit
M e a s u r e s o f A s s o c i a t i o n
. 8 7 5 . 7 6 6
D i s c r i m i n a n t S c o r e s
f r o m F u n c t i o n 1 f o r
A n a l y s i s 1 * Q u a l i t
E t a E t a S q u a r e d
ANOVA Table
101.6452 50.822 50.822 .000
31.000 31 1.000
132.645 33
(Combined) Between Groups
Within Groups
Total
Discriminant Scores
from Function 1 for
Analysis 1 * Qualit
Sum of
Squares df Mean Square F Sig.
12 11 11 N =
Qualit
Mdiocre Moyen Bon
D
i
s
c
r
i
m
i
n
a
n
t

S
c
o
r
e
s

f
r
o
m

F
u
n
c
t
i
o
n

1

f
o
r

A
n
a
l
y
s
i
s

1
6
4
2
0
-2
-4
-6
R e p o r t
D i s c r i m i na nt S c o r e s fr o m F unc ti o n 1 fo r A na lys i s 1
2 .1 2 1 1 1 .1 9
.1 5 1 1 .8 9
- 2 .0 8 1 2 .9 0
.0 0 3 4 2 .0 0
Q ua li t
B o n
M o ye n
M d i o c r e
T o ta l
M e a n N S td . D e vi a ti o n
14
Analyse factorielle discriminante
Recherche de la deuxime variable discriminante
On recherche une deuxime variable discriminante centre
et non corrle Z
1




sparant au mieux les k classes.
On recherche des a
2j
conduisant une variable Z
2
ayant un
F ou, de manire quivalente, un q
2
maximum dans
lanalyse de la variance de Z
2
sur le facteur Y dfinissant
les classes.
On choisit comme normalisation une variance intra-classes
de Z
2
gale 1.

p
2 20 2j j
j 1
Z a a X
=
= +

15
Analyse de la variance de Z
2
sur la qualit
R e p o r t
D i s c r i m i na nt S c o r e s fr o m F unc ti o n 2 fo r A na lys i s 1
.2 7 1 1 .9 6
- .5 1 1 1 1 .0 2
.2 2 1 2 1 .0 2
.0 0 3 4 1 .0 3
Q ua li t
B o n
M o ye n
M d i o c r e
T o ta l
M e a n N S td . D e vi a ti o n
M e a s u r e s o f A s s o c i a t i o n
. 3 4 9 . 1 2 2
D i s c r i m i n a n t S c o r e s
f r o m F u n c t i o n 2 f o r
A n a l y s i s 1 * Q u a l i t
E t a E t a S q u a r e d
ANOVA Table
4.2962 2.148 2.148 .134
31.000 31 1.000
35.296 33
(Combined) Between Groups
Within Groups
Total
Discriminant Scores
from Function 2 for
Analysis 1 * Qualit
Sum of
Squares df Mean Square F Sig.
12 11 11 N =
Qualit
Mdiocre Moyen Bon
D
i
s
c
r
i
m
i
n
a
n
t

S
c
o
r
e
s

f
r
o
m

F
u
n
c
t
i
o
n

2

f
o
r

A
n
a
l
y
s
i
s

1
3
2
1
0
-1
-2
-3
16
Les deux variables
discriminantes
- .88 - .87
- 2.33 - .09
- .99 .83
- 2.73 .25
.74 1.72
2.23 .48
- 2.75 1.11
- 2.53 .24
- 3.73 2.11
1.13 1.37
2.17 - .04
- .36 1.36
- 2.02 - .54
1.55 - .53
- .73 - .79
- .31 - 1.80
.34 - 1.56
- 2.45 .80
.79 .16
2.41 - .46
1.14 - .82
3.54 - .93
- .55 - 1.10
3.18 1.95
.21 - 1.28
4.12 1.22
1.47 .22
- 1.68 .23
2.17 - .49
.35 .13
- 2.10 - 1.49
.87 - .05
- 1.09 - .98
- 1.18 - .34
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Var i abl e
di s c r i mi nante
Z 1
Var i abl e
di s c r i mi nante
Z 2
17
Le premier plan discriminant
Variable discriminante Z1
6 4 2 0 -2 -4
V
a
r
i
a
b
l
e

d
i
s
c
r
i
m
i
n
a
n
t
e


Z
2
3
2
1
0
-1
-2
Qualit
Group Centroids
Mdiocre
Moyen
Bon
34
33
32
31
30
29
28 27
26
25
24
23
22
21
20
19
18
17
16
15
14 13
12
11
10
9
8
7
6
5
4
3
2
1
18
Carte des
qualits
Symbols used in territorial map

Symbol Group Label
------ ----- --------------------

1 1 Bon
2 2 Moyen
3 3 Mdiocre
* Indicates
a group centroid
Territorial Map

Canonical Discriminant
Function 2
-6.0 -4.0 -2.0 .0 2.0 4.0 6.0


6.0 31
31
31
31
31
31
4.0 31
31
31
31
31
31
2.0 3221
32 21
32 21
32 21
32 21
* 32 21 *
.0 32 21
32 21
32 * 21
32 21
32 21
32 21
-2.0 32 21
32 21
32 21
32 21
32 21
32 21
-4.0 32 21
32 21
32 21
32 21
32 21
32 21
-6.0 32 21


-6.0 -4.0 -2.0 .0 2.0 4.0 6.0

Canonical Discriminant Function 1

Les droites frontires
sont les mdiatrices
des segments joignant
les centres de gravit
des groupes
19
Variable discriminante Z1
6 4 2 0 -2 -4
V
a
r
i
a
b
l
e

d
i
s
c
r
i
m
i
n
a
n
t
e


Z
2

3
2
1
0
-1
-2
Qualit
Group Centroids
Mdiocre
Moyen
Bon
34
33
32
31
30
29
28 27
26
25
24
23
22
21
20
19
18
17
16
15
14 13
12
11
10
9
8
7
6
5
4
3
2
1
Premier plan discriminant et carte des qualits
Une nouvelle observation est classe dans le groupe pour lequel
la distance entre lobservation et le centre du groupe est la plus faible.
20
Temprature
Chaleur

Pluie

* *
*
*
*
*
g
2

* *
*
*
*
*
g
3

* *
*
*
*
*
*
*
*
*
*
*
*
*
*
*
g
1

* *
*
*
*
Premier plan discriminant et territoire des qualits
g
*
Z
1

Z
2
g
3
* *
* *
g
2
* *
* *
g
1
* *
* *
Le premier plan discriminant contient
les centres de gravit des groupes
*A
*B
Affecter une observation A la classe la plus proche (g
h
) est
quivalent affecter la projection B la classe la plus proche.
21
Distance carre au
centre de gravit dans
le plan (Z
1
,Z
2
)
Case Summaries
a
10.32 1.19 2.62
19.89 6.28 .16
10.02 3.11 1.55
23.49 8.83 .42
4.00 5.35 10.22
.06 5.34 18.65
24.39 11.00 1.24
21.66 7.74 .21
37.63 21.93 6.31
2.19 4.51 11.62
.10 4.34 18.16
7.33 3.78 4.28
17.81 4.70 .58
.97 1.98 13.75
9.24 .84 2.84
10.18 1.87 7.24
6.52 1.14 9.05
21.21 8.49 .48
1.79 .86 8.21
.62 5.13 20.62
2.15 1.08 11.43
3.45 11.66 32.85
9.00 .83 4.06
3.94 15.26 30.66
6.06 .59 7.49
4.90 18.80 39.42
.43 2.28 12.57
14.41 3.87 .16
.58 4.09 18.53
3.14 .45 5.92
20.91 6.00 2.91
1.65 .74 8.79
11.91 1.76 2.42
11.27 1.79 1.11
34 34 34
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
N Total
DBON DMOYEN DMEDIOCRE
Li mi ted to fi rst 100 cases.
a.
22
Prvision de la qualit pour
une nouvelle anne (obs. 35)
Pour le Bordeaux 1958 :
- Temprature = 3 000
- Soleil = 1 100
- Chaleur = 20
- Pluie = 300

Prvoir sa qualit.
23
Prvision de la
qualit pour
une nouvelle
anne (obs. 35)
Case Summaries
a
1 -.88255 -.87154
2 -2.32546 -.09422
3 -.99486 .83296
4 -2.72686 .24724
5 .74360 1.72117
6 2.23089 .48432
7 -2.74699 1.10879
8 -2.53383 .23602
9 -3.73088 2.11364
10 1.13041 1.36843
11 2.17473 -.04282
12 -.35666 1.36423
13 -2.02108 -.54262
14 1.55211 -.53357
15 -.72946 -.78920
16 -.30606 -1.80302
17 .34347 -1.56328
18 -2.45448 .80177
19 .78584 .15937
20 2.40988 -.46304
21 1.13802 -.81821
22 3.53529 -.93260
23 -.55191 -1.09502
24 3.18211 1.94567
25 .20968 -1.28127
26 4.11917 1.22305
27 1.46680 .21664
28 -1.67615 .22582
29 2.16713 -.48896
30 .35244 .12658
31 -2.10225 -1.48623
32 .87424 -.04986
33 -1.09442 -.98466
34 -1.18190 -.33558
35 -2.02768 .56940
35 35 35
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
N Total
Observati on Z1 Z2
Li mi ted to fi rst 100 cases.
a.
24
Prvision de la qualit pour
une nouvelle anne (obs. 35)
Canonical Discriminant Functions
Function 1
6 4 2 0 -2 -4
F
u
n
c
t
i
o
n

2
3
2
1
0
-1
-2
Qualit
Group Centroids
Ungrouped Cases
Mdiocre
Moyen
Bon
35
25
Rsultats de lanalyse factorielle discriminante
Group Statistics
3306.36 92.06 11 11.000
1363.64 80.31 11 11.000
28.55 8.80 11 11.000
305.00 52.29 11 11.000
3140.91 100.05 11 11.000
1262.91 71.94 11 11.000
16.45 6.73 11 11.000
339.64 54.99 11 11.000
3037.33 69.34 12 12.000
1126.42 88.39 12 12.000
12.08 6.30 12 12.000
430.33 104.85 12 12.000
3157.88 141.18 34 34.000
1247.32 126.62 34 34.000
18.82 10.02 34 34.000
360.44 91.40 34 34.000
Temprature
Sol ei l
Chal eur
Pl ui e
Temprature
Sol ei l
Chal eur
Pl ui e
Temprature
Sol ei l
Chal eur
Pl ui e
Temprature
Sol ei l
Chal eur
Pl ui e
Qual i t
Bon
Moyen
Mdi ocre
Total
Mean Std. Devi ati on Unwei ghted Wei ghted
Val i d N (l i s twi s e)
F u n c t i o n s a t G r o u p C e n t r o i d s
2 . 1 2 2 . 2 7 2
. 1 4 6 - . 5 1 3
- 2 . 0 7 9 . 2 2 1
Q u a l i t
B o n
M o y e n
M d i o c r e
12
F u n c t i o n
U n s t a n d a r d i z e d c a n o n i c a l d i s c r i m i n a n t
f u n c t i o n s e v a l u a t e d a t g r o u p m e a n s
Z
1
= Score prdictif
de la qualit du vin
construit partir des
variables mto.
26
Rsultats de lanalyse factorielle discriminante
Tests of Equality of Group Means
.361 27.3892 31 .000
.382 25.0612 31 .000
.503 15.3342 31 .000
.647 8.4402 31 .001
Temprature
Solei l
Chaleur
Plui e
W i lks'
Lambda F df1 df2 Si g.
2
Somme des carrs intra-classes (X)
Wilks ' Lambda = 1
Somme des carrs totale (X)
= q
27
Rsultats de lanalyse factorielle discriminante
E ig e n v a lu e s
3 . 2 7 9
a
9 5 . 9 9 5 . 9 . 8 7 5
. 1 3 9
a
4 . 1 1 0 0 . 0 . 3 4 9
F unc t io n
1
2
E ig e nva lue % o f V a r ia nc e C um ula t ive %
C a no nic a l
C o r r e la t io n
F ir s t 2 c a no nic a l d is c r im ina nt f unc t io ns w e r e us e d in t he
a na ly s is .
a .
2
h
2
h
Somme des carrs inter-classes (Z )
Eigenvalue
Somme des carrs intra-classes (Z ) 1
q
= =
q
s = Nombre maximum de variables discriminantes = k-1
= Eta
28
Test en analyse factorielle discriminante
(donnes multinormales)
Wilks' Lambda
.205 46.7128 .000
.878 3.8283 .281
Test of Function(s)
1 through 2
2
Wil ks'
Lambda Chi-square df Sig.
Test 1 through s (ici s=2)
Test : H
0
: q
1
= = q
s
= 0 (au niveau de la population)
H
1
: au moins q
1
> 0
Statistique : Wilks Lambda = (1-q
1
2
)... (1-q
s
2
)
Dcision : On rejette H
0
au risque o si


| |
s
2 2 2
h 1
h 1
1
n 1 (p k) ln (1 ) p(k 1)
2
o
=
(
_ = + q > _
(

[
29

Test m through s

Test : H
0
: q
m
= = q
s
= 0 (au niveau de la
population)
H
1
: au moins q
m
> 0

Statistique : Wilks Lambda = (1-q
m
2
)... (1-q
s
2
)

Dcision : On rejette H
0
au risque o si
| |
s
2 2 2
h 1
h m
1
n 1 (p k) ln (1 ) (p m 1)(k m)
2
o
=
(
_ = + q > _ +
(

[
30
Corrlation intra-classes entre les X et les Z
Structure Ma tri x
. 724* . 584
. 701* -. 176
. 525 . 780*
-. 398 . 421*
Temprat ure
Soleil
Chaleur
Pluie
12
Funct ion
Pooled wit hin-groups correlat ions bet ween discriminat ing
variables and st andardized canonical discriminant funct ions
Variables ordered by absolut e size of correlat ion wit hin funct ion.
Largest absolut e correlat ion bet ween each variable and
any discriminant funct ion
*.
i
i i
n k
ij i ij i
i 1 j 1
n n k k
2 2
ij i ij i
i 1 j 1 i 1 j 1
(x x )(z z )
cor(X, Z| Qualit)
(x x ) (z z )
= =
= = = =

=


31
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Z
Pluie
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
*
Z
Pluie
*
*
*
*
*
*
*
*
*
*
*
*
Visualisation dune corrlation intra-classes
Corrlation
globale positive
Corrlation
intra-classes
ngative
32
Analyse discriminante bayesienne
Hypothses de base :
1) Donnes multinormales
2) Dispersion des donnes identiques dans chaque classe
La probabilit quune observation provienne de la classe
Y = h sachant que X = x = (x
1
,, x
p
) peut scrire :
h
h
g (x)
k
g (x)
h 1
e
P(Y h | X x)
e
=
= = =

avec des fonctions de classification g


h
(x) de la forme :
g
h
(x) = b
h0
+ b
h1
X
1
+ + b
hp
X
p

o les X sont les variables dorigine.
33
Les fonctions de classification g
h
(x)
C l a s s i f i c a t i o n F u n c t i o n C o e f f i c i e n t s
. 8 1 8 . 8 0 1 . 7 8 2
. 1 5 4 . 1 4 5 . 1 2 6
- 7 . 0 1 0 - 7 . 0 5 6 - 6 . 9 0 3
- . 0 4 6 - . 0 4 0 - . 0 2 2
- 1 3 5 0 . 8 1 9 - 1 2 8 5 . 4 2 0 - 1 2 1 2 . 7 0 6
T e mp r a t u r e
So le il
C h a le u r
Plu ie
( C o n s t a n t )
Bo n Mo y e n M d io c r e
Q u a lit
F is h e r ' s lin e a r d is c r imin a n t f u n c t io n s
Elles sont calcules ici en supposant les 3 qualits
a priori quiprobables :
34
Calcul des
probabilits de
chaque qualit
pour chaque
anne
Moyen .007 .668 .325 Moyen
Mdi ocre .000 .045 .955 Mdi ocre
Moyen .010 .311 .679 Mdi ocre
Mdi ocre .000 .015 .985 Mdi ocre
Bon .643 .328 .029 Bon
Bon .933 .066 .000 Bon
Mdi ocre .000 .008 .992 Mdi ocre
Mdi ocre .000 .023 .977 Mdi ocre
Mdi ocre .000 .000 1.000 Mdi ocre
Moyen .756 .237 .007 Bon
Bon .892 .107 .000 Bon
Mdi ocre .087 .513 .400 Moyen
Mdi ocre .000 .113 .886 Mdi ocre
Bon .622 .377 .001 Bon
Moyen .011 .723 .266 Moyen
Moyen .014 .923 .063 Moyen
Moyen .062 .920 .018 Moyen
Mdi ocre .000 .018 .982 Mdi ocre
Moyen .379 .606 .015 Moyen
Bon .905 .095 .000 Bon
Moyen .367 .630 .004 Moyen
Bon .984 .016 .000 Bon
Moyen .014 .823 .163 Moyen
Bon .997 .003 .000 Bon
Moyen .059 .912 .029 Moyen
Bon .999 .001 .000 Bon
Moyen .714 .284 .002 Bon
Mdi ocre .001 .135 .864 Mdi ocre
Bon .852 .148 .000 Bon
Bon .196 .755 .049 Moyen
Mdi ocre .000 .176 .824 Mdi ocre
Bon .383 .606 .011 Moyen
Mdi ocre .004 .580 .416 Moyen
Mdi ocre .004 .414 .582 Mdi ocre
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Qual i t
Proba.
d'appartenance
au Groupe "Bon"
Proba.
d'appartenance au
Groupe "Moyen"
Proba.
d'appartenance au
Groupe "Mdi ocre" Groupe prdi t
35
Qualit de la prvision
Q u a l i t * G r o u p e p r d i t C r o s s t a b u l a t i o n
C o u n t
92 1 1
281 1 1
2 1 0 1 2
1 1 1 2 1 1 3 4
B o n
M o y e n
M d i o c r e
Q u a l i t
T o t a l
B o n M o y e n M d i o c r e
G r o u p e p r d i t
T o t a l
36
Validit de la qualit de la prvision
value par Jack-knife
Classification Results
b,c
920 11
281 11
02 10 12
740 11
281 11
02 10 12
Qualit
Bon
Moyen
Mdiocre
Bon
Moyen
Mdiocre
Count
Count
Original
Cross-validated
a
Bon Moyen Mdiocre
Predicted Group Membership
Total
Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
a.
79.4% of original grouped cases correctly classified.
b.
73.5% of cross-validated grouped cases correctly classified.
c.
37
Prvision de la qualit pour
une nouvelle anne
Pour le Bordeaux 1958 :
- Temprature = 3 000
- Soleil = 1 100
- Chaleur = 20
- Pluie = 300

Prvoir sa qualit.
38
Analyse discriminante bayesienne sur les
variables discriminantes Z
1
, Z
2

1. La prdiction de la qualit du vin laide des territoires
de qualit construits sur le plan discriminant (Z
1
, Z
2
)
est quivalente la prdiction de la qualit obtenue
par analyse discriminante bayesienne des variables
discriminantes (Z
1
, Z
2
).
2. Lanalyse discriminante bayesienne des variables
dorigine (X
1
,,X
p
) et lanalyse discriminante bayesienne
des variables discriminantes (Z
1
, Z
2
) conduisent aux
mmes probabilits calcules des modalits de Y.
39
Analyse discriminante
bayesienne sur les
variables discriminantes
Z
1
, Z
2

Moyen Moyen .007 .668 .325
Mdi ocre Mdi ocre .000 .045 .955
Moyen Mdi ocre .010 .311 .679
Mdi ocre Mdi ocre .000 .015 .985
Bon Bon .643 .328 .029
Bon Bon .933 .066 .000
Mdi ocre Mdi ocre .000 .008 .992
Mdi ocre Mdi ocre .000 .023 .977
Mdi ocre Mdi ocre .000 .000 1.000
Moyen Bon .756 .237 .007
Bon Bon .892 .107 .000
Mdi ocre Moyen .087 .513 .400
Mdi ocre Mdi ocre .000 .113 .886
Bon Bon .622 .377 .001
Moyen Moyen .011 .723 .266
Moyen Moyen .014 .923 .063
Moyen Moyen .062 .920 .018
Mdi ocre Mdi ocre .000 .018 .982
Moyen Moyen .379 .606 .015
Bon Bon .905 .095 .000
Moyen Moyen .367 .630 .004
Bon Bon .984 .016 .000
Moyen Moyen .014 .823 .163
Bon Bon .997 .003 .000
Moyen Moyen .059 .912 .029
Bon Bon .999 .001 .000
Moyen Bon .714 .284 .002
Mdi ocre Mdi ocre .001 .135 .864
Bon Bon .852 .148 .000
Bon Moyen .196 .755 .049
Mdi ocre Mdi ocre .000 .176 .824
Bon Moyen .383 .606 .011
Mdi ocre Moyen .004 .580 .416
Mdi ocre Mdi ocre .004 .414 .582
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Quali t
observe
Quali t
prdi te Prob(BON) Prob(MOYEN) Prob(MEDIOCRE)
40
Utilisation de la mthode de segmentation CART
Y ordinale : le critre Ordered Twoing
Segment t
Effectif = n
t

Segment t
droit
Effectif = n
tdroit
Segment t
gauche
Effectif =
n
tgauche
X
X = 0

X = 1
( )
2
Ordered Twoing
2
( , ) ( | ) ( | )
tg td
g d g d
t
j
n n
t t p Y j t p Y j t
n
Max A = s s
41
( )
( )
Ordered Twoing
2
2
2
2
( , )
15 19
34
( | ) ( | )
15 19
.80 .00 .158
34
g d
g d
j
t t
p Y j t p Y j t Max
A

=
s s

= =
Rgles darrt :
- Improvement min = 0.01
- Effectif segment parent < 25
- Effectif segment descendant < 1
Classification
11 0 0
1 10 0
0 1 11
35.3% 32.4% 32.4%
Observed
Bon
Moyen
Mdi ocre
Overal l Percentage
Bon Moyen Mdi ocre
Predi cted
Growi ng Method: CRT
Dependent Vari abl e: Qual i t
Risk
.059
.235
Method
Resubsti tuti on
Cross-Val i dati on
Esti mate
Growi ng Method: CRT
Dependent Vari abl e: Qual i t
Nb de groupes
pour CV = 25
42
Crossvalidation (Documentation SPSS)

Crossvalidation divides the sample into a number of subsamples, or folds.
Tree models are then generated, excluding the data from each subsample in turn.
The first tree is based on all of the cases except those in the first sample fold,
the second tree is based on all of the cases except those in the second sample fold,
and so on.

For each tree, misclassification risk is estimated by applying the tree to the
subsample excluded in generating it.

You can specify a maximum of 25 sample folds. The higher the value,
the fewer the number of cases excluded for each tree model.

Crossvalidation produces a single, final tree model. The crossvalidated risk
estimate for the final tree is calculated as the average of the risks for all of
the trees.

43
Deuxime exemple : les races canines
Race Taille Poids Vitesse Intell. Affect. Agress. Fonction
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
Beauceron
Basset
Berger-Allemand
Boxer
Bull-Dog
Bull-Mastiff
Caniche
Chihuahua
Cocker
Colley
Dalmatien
Doberman
Dogue Allemand
Epagneul Breton
Epagneul Franais
Fox-Hound
Fox-Terrier
Grd Bleu de Gascogne
Labrador
Lvrier
Mastiff
Pkinois
Pointer
Saint-Bernard
Setter
Teckel
Terre-Neuve
TA++
TA-
TA++
TA+
TA-
TA++
TA-
TA-
TA+
TA++
TA+
TA++
TA++
TA+
TA++
TA++
TA-
TA++
TA+
TA++
TA++
TA-
TA++
TA++
TA++
TA-
TA++
PO+
PO-
PO+
PO+
PO-
PO++
PO-
PO-
PO-
PO+
PO+
PO+
PO++
PO+
PO+
PO+
PO-
PO+
PO+
PO+
PO++
PO-
PO+
PO++
PO+
PO-
PO++
V++
V-
V++
V+
V-
V-
V+
V-
V-
V++
V+
V++
V++
V+
V+
V++
V+
V+
V+
V++
V-
V-
V++
V-
V++
V-
V-
INT+
INT-
INT++
INT+
INT+
INT++
INT++
INT-
INT+
INT+
INT+
INT++
INT-
INT++
INT+
INT-
INT+
INT-
INT+
INT-
INT-
INT-
INT++
INT+
INT+
INT+
INT+
AF+
AF-
AF+
AF+
AF+
AF-
AF+
AF+
AF+
AF+
AF+
AF-
AF-
AF+
AF-
AF-
AF+
AF-
AF+
AF-
AF-
AF+
AF-
AF-
AF-
AF+
AF-
AG+
AG+
AG+
AG+
AG-
AG+
AG-
AG-
AG+
AG-
AG-
AG+
AG+
AG-
AG-
AG+
AG+
AG+
AG-
AG-
AG+
AG-
AG-
AG+
AG-
AG-
AG-
Utilit
Chasse
Utilit
Compagnie
Compagnie
Utilit
Compagnie
Compagnie
Compagnie
Compagnie
Compagnie
Utilit
Utilit
Chasse
Chasse
Chasse
Compagnie
Chasse
Chasse
Chasse
Utilit
Compagnie
Chasse
Utilit
Chasse
Compagnie
Utilit
44
Le tableau disjonctif complet



Race T- T+ T++ P- P+ P++ V- V+ V++ I- I+ I++ Af- Af+ Ag- Ag+ Compagnie Chasse Utilit
__________ _____ _____ ______ _____ _____ ______ _____ _____ _____ _____ ______ _____ ______ ______ ______ _____ _________ ________ ________
Beauceron 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 0 1
Basset 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 0
Berger all 0 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1
Boxer 0 1 0 0 1 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Bull-dog 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0
Bull Mastiff 0 0 1 0 0 1 1 0 0 0 0 1 1 0 0 1 0 0 1
Caniche 1 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 0
Chihuahua 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Cocker 0 1 0 1 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0
Colley 0 0 1 0 1 0 0 0 1 0 1 0 0 1 1 0 1 0 0
Dalmatien 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 0 0
Doberman 0 0 1 0 1 0 0 0 1 0 0 1 1 0 0 1 0 0 1
Dogue all 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1
Epagneul br 0 1 0 0 1 0 0 1 0 0 0 1 0 1 1 0 0 1 0
Epagneul fr 0 0 1 0 1 0 0 1 0 0 1 0 1 0 1 0 0 1 0
Fox-Hound 0 0 1 0 1 0 0 0 1 1 0 0 1 0 0 1 0 1 0
Fox-Terrier 1 0 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0
Grd Bl de G 0 0 1 0 1 0 0 1 0 1 0 0 1 0 0 1 0 1 0
Labrador 0 1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0
Lvrier 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 1 0
Mastiff 0 0 1 0 0 1 1 0 0 1 0 0 1 0 0 1 0 0 1
Pkinois 1 0 0 1 0 0 1 0 0 1 0 0 0 1 1 0 1 0 0
Pointer 0 0 1 0 1 0 0 0 1 0 0 1 1 0 1 0 0 1 0
St-Bernard 0 0 1 0 0 1 1 0 0 0 1 0 1 0 0 1 0 0 1
Setter 0 0 1 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 0
Teckel 1 0 0 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0
Terre neuve 0 0 1 0 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1
x
ijl
= 1 si lindividu i possde la modalit l de la variable j
= 0 sinon
45
Analyse factorielle discriminante
Y = Fonction
X = variables indicatrices des caractristiques physiques et
psychiques des chiens
Canonical Discriminant Functions
Function 1
4 2 0 -2 -4 -6
F
u
n
c
t
i
o
n

2
3
2
1
0
-1
-2
-3
fonction
Group Centroids
utilit
chasse
compagnie
utilit
chasse
compagnie
Functions at Group Centroids
1.295 -1.706
1.637 1.769
-3.461 .143
foncti on
compagni e
chasse
uti l i t
1 2
Functi on
Unstandardi zed canoni cal di scrimi nant
functi ons eval uated at group means
46
Premier plan discriminant
Z1
4 2 0 -2 -4 -6
Z
2

3
2
1
0
-1
-2
-3
fonction
utilit
chasse
compagnie
terre-neuve
teckel
setter
saint-bernard
pointer
pkinois
mastiff
levrier
labrador (chasse)
grand bleu de gascogne
fox-terrier
fox-hound
epagneul franais
epagneul breton
dogue allemand
dobermann
dalmatien (compagnie)
colley
cocker
chihuahua
caniche
bull-mastiff
bull-dog
boxer
berger allemand
basset
beauceron
47
Variables discriminantes
beauceron -2.45 -1.41
basset 2.08 1.12
berger al l emand -3.46 -.80
boxer .55 -.27
bul l -dog 1.23 -2.41
bul l -masti ff -5.60 .49
cani che 1.74 -1.94
chi huahua 1.96 -1.80
cocker 1.52 -2.42
col l ey -.55 -1.19
dal mati en 2.45 -.05
dobermann -1.43 2.34
dogue al l emand -3.61 .06
epagneul breton 1.44 .55
epagneul franais 2.74 2.24
fox-hound .30 2.34
fox-terri er .85 -2.76
grd bl eu de gasc 1.57 2.63
l abrador 2.45 -.05
l evri er 2.20 2.56
masti ff -3.86 .49
pki noi s 1.96 -1.80
poi nter .47 2.56
sai nt-bernard -4.59 -.12
setter 1.48 1.95
teckel 1.23 -2.41
terre-neuve -2.69 .10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
CHIEN Z1 Z2
48
Case Summaries
a
beauceron utilit 14.12 26.81 3.43 3.43Utilit
basset chasse 8.61 .62 31.68 .62Chasse
berger allemand utilit 23.41 32.57 .89 .89Utilit
boxer compagnie 2.61 5.35 16.24 2.61Compagnie
bull-dog compagnie .50 17.63 28.56 .50Compagnie
bull-mastif f utilit 52.29 53.96 4.68 4.68Utilit
caniche compagnie .25 13.74 31.40 .25Compagnie
chihuahua compagnie .45 12.87 33.20 .45Compagnie
cocker compagnie .56 17.55 31.40 .56Compagnie
colley compagnie 3.66 13.53 10.26 3.66Compagnie
dalmatien compagnie 4.07 3.98 34.99 3.98Chasse
dobermann utilit 23.84 9.76 8.94 8.94Utilit
dogue allemand utilit 27.19 30.44 .03 .03Utilit
epagneul breton chasse 5.13 1.51 24.23 1.51Chasse
epagneul f ranais chasse 17.70 1.44 42.88 1.44Chasse
f ox-hound chasse 17.37 2.11 18.98 2.11Chasse
f ox-terrier compagnie 1.32 21.17 26.99 1.32Compagnie
grd bleu de gasc chasse 18.89 .75 31.47 .75Chasse
labrador chasse 4.07 3.98 34.99 3.98Chasse
levrier chasse 19.04 .95 37.95 .95Chasse
mastif f utilit 31.38 31.87 .28 .28Utilit
pkinois compagnie .45 12.87 33.20 .45Compagnie
pointer chasse 18.89 1.99 21.29 1.99Chasse
saint-bernard utilit 37.14 42.34 1.34 1.34Utilit
setter chasse 13.43 .06 27.65 .06Chasse
teckel compagnie .50 17.63 28.56 .50Compagnie
terre-neuve utilit 19.10 21.47 .60 .60Utilit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
CHIEN f onction DCOMP DCHASSE DUTILIT MIN PREDICT
Limited to f irst 100 cases.
a.
Prvision de la fonction par calcul de la distance carre entre chaque chien et les
centre de gravit des classes dans le plan discriminant (Z
1
, Z
2
)
49
Analyse discriminante bayesienne
(sur les donnes dorigine transformes en indicatrices)
C l a s s i fi c a ti o n F u n c ti o n C o e ffi c i e n ts
. 3 4 7 2 . 3 9 9 3 . 7 0 9
1 5 . 1 9 7 1 8 . 7 3 2 8 . 5 2 0
5 5 . 6 6 0 5 7 . 8 4 4 2 5 . 2 1 4
4 4 . 5 9 8 5 3 . 8 5 1 3 0 . 2 1 2
7 . 6 1 6 8 . 9 9 9 9 . 5 8 7
1 3 . 2 1 5 1 4 . 6 5 6 7 . 7 3 4
1 5 . 0 1 8 1 5 . 6 1 1 6 . 7 6 4
1 0 . 8 4 5 9 . 0 8 0 4 . 9 3 5
2 4 . 1 2 6 3 5 . 7 4 2 2 0 . 3 1 9
1 4 . 4 5 7 1 5 . 8 7 1 5 . 8 1 0
-4 4 . 5 5 8 -5 8 . 3 9 0 -1 8 . 9 1 3
T -
T +
P -
P +
V -
V +
I -
I +
A f -
A g -
(C o n st a n t )
c o m p a g n i e c h a sse u t i l i t
f o n c t i o n
F i sh e r' s l i n e a r d i sc ri m i n a n t f u n c t i o n s
Problme : Appliquer une mthode supposant la normalit
sur des donnes binaires !!!!
50
Prvision de la fonction dun chien
Case Summaries
a
beauceron utilit .00474 .00001 .99526utilit
basset chasse .01807 .98193 .00000chasse
berger allemand utilit .00001 .00000 .99999utilit
boxer compagnie .79642 .20270 .00088compagnie
bull-dog compagnie .99981 .00019 .00000compagnie
bull-mastif f utilit .00000 .00000 1.00000utilit
caniche compagnie .99882 .00118 .00000compagnie
chihuahua compagnie .99799 .00201 .00000compagnie
cocker compagnie .99980 .00020 .00000compagnie
colley compagnie .95774 .00692 .03534compagnie
dalmatien compagnie .48859 .51141 .00000chasse
dobermann utilit .00035 .39788 .60177utilit
dogue allemand utilit .00000 .00000 1.00000utilit
epagneul breton chasse .14058 .85941 .00001chasse
epagneul f ranais chasse .00030 .99970 .00000chasse
f ox-hound chasse .00049 .99930 .00022chasse
f ox-terrier compagnie .99995 .00005 .00000compagnie
grd bleu de gasc chasse .00011 .99988 .00000chasse
labrador chasse .48859 .51141 .00000chasse
levrier chasse .00012 .99988 .00000chasse
mastif f utilit .00000 .00000 1.00000utilit
pkinois compagnie .99799 .00201 .00000compagnie
pointer chasse .00021 .99972 .00006chasse
saint-bernard utilit .00000 .00000 1.00000utilit
setter chasse .00125 .99875 .00000chasse
teckel compagnie .99981 .00019 .00000compagnie
terre-neuve utilit .00010 .00003 .99987utilit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
CHIEN f onction
Probabilities
of
Membership
in Group 1
Probabilities
of
Membership
in Group 2
Probabilities
of
Membership
in Group 3
Predicted
Group
Limited to f irst 100 cases.
a.
51
Prvision de la fonction dun chien
Classification Results
b,c
910 10
0909
0088
90.0 10.0 .0 100.0
.0 100.0 .0 100.0
.0 .0 100.0 100.0
721 10
3609
1168
70.0 20.0 10.0 100.0
33.3 66.7 .0 100.0
12.5 12.5 75.0 100.0
fonction
compagnie
chasse
utilit
compagnie
chasse
utilit
compagnie
chasse
utilit
compagnie
chasse
utilit
Count
%
Count
%
Original
Cross-validated
a
compagnie chasse utilit
Predicted Group Membership
Total
Cross validation is done only for those cases in the analysis. In cross validation, each
case is classified by the functions derived from all cases other than that case.
a.
96.3% of original grouped cases correctly classified.
b.
70.4% of cross-validated grouped cases correctly classified.
c.

You might also like