You are on page 1of 271

1

Anal yse di sc r i mi nant e,


c l assi f i c at i on super vi se,
sc or i ng
Gi l ber t Sapor t a
Conser vat oi r e Nat i onal des Ar t s et Mt i er s
Gi l ber t .sapor t a@c nam.f r
ht t p://c edr i c .c nam.f r /~sapor t a
Ver si on du 8/11/2009
2
Bi bl i ogr aphi e
Bardos: Analyse discriminant e , Dunod, 2001
Hast ie, Tibshirani, Friedman : The Element s of St at ist ical
Learning , 2nd edit ion, Springer-Verlag, 2009 ht t p: / / www-
st at .st anford.edu/ ~ hast ie/ Papers/ ESLI I .pdf
Nakache, Confais: St at ist ique explicat ive applique , Technip,
2003
Thiria et al. : St at ist ique et mt hodes neuronales Dunod, 1997
Thomas, Edelman,Crook: Credit scoring and it s applicat ions ,
SI AM, 2002
Tuffry: Dat a Mining et st at ist ique dcisionnelle ,Technip, 2007
Tuffry: t ude de cas en st at ist ique dcisionnelle ,Technip, 2009
Vapnik : St at ist ical Learning Theory , Wiley 1998
3
Pl an
I Lanalyse fact orielle discriminant e
I I Discriminat ion sur variables qualit at ives :
le scoring.
I I I Analyse discriminant e probabilist e
I V Rgression logist ique
V SVM
VI Validat ion
VI I Choix de modles et t horie de lapprent issage
st at ist ique
VI I I Arbres de dcision
4
Obj et dt ude
Observat ions mult idimensionnelles rpart ies en k
groupes dfinis a priori.
Aut re t erminologie: classificat ion supervise
Exemples dapplicat ion :
Pronost ic des infarct us (J.P. Nakache)
2 groupes : dcs, survie (variables mdicales)
I ris de Fisher :
3 espces : 4 variables (longueur et largeur des pt ales et spales)
Risque des demandeurs de crdit
2 groupes : bons, mauvais (variables qualit at ives)
Aut res :
Mt o, publipost age, reclassement dans une t ypologie.
5
Quel ques dat es :
P.C. Mahalanobis 1927
H. Hot elling 1931
R. A. Fisher 1936
J.Berkson 1944
C.R.Rao 1950
T.W.Anderson 1951
D.Mc Fadden 1973
V.Vapnik 1998
6
Obj ec t i f s
Y variable expliquer qualit at ive k cat gories
X
1
, X
2
, , X
p
variables explicat ives
Obj ect if 1 : Dcrire
t ude de la dist ribut ion des X
i
/ Y
Gomt rie : Analyse fact orielle discriminant e AFD
Test s : Analyse de variance mult idimensionnelle MANOVA
Obj ect if 2 : Classer
t ude de P(Y/ X
1
, X
2
, , X
p
)
Modlisat ion fonct ionnelle : Approche baysienne
Modlisat ion logique : Arbre de dcision
Mt hodes gomt riques.
7
1. Rduct ion de dimension, axes et
variables discriminant es.
2. Cas de 2 groupes.
3. Mt hodes gomt riques de
classement .
1
r e
par t i e : Lanal yse
f ac t or i el l e di sc r i mi nant e
8
Repr sent at i on des donnes
2 cas :
prdict eurs numriques
prdict eurs qualit at ifs
n point s dans R
p
appart enant k groupes.
1 2
1 1 1 1
1 2
1 2
1 2 1 2
1
2
...
0 1 ... 0
1 0 ... 0

...
0 0 ... 1
1 0 ... 0
indicatrices des groupes variables explicatives
j p
j p
i i i i
j p
n n n n
k j p
i
n
X X X X
X X X X
X X X X
9
I .1 Rduc t i on de di mensi on.
Rec her c he dax es et de var i abl es
di sc r i mi nant es.
Dispersion int ergroupe
et dispersion int ra
groupe.
W = mat rice variance int ra
W = 1/ n n
i
V
i
B = mat rice variance int er
B = 1/ n n
i
(g
i
- g) (g
i
- g)
V = W + B variance t ot ale
V
1
g
1
V
2
g
2
V
k
g
k
10
Ax es di sc r i mi nant s : deux
obj ec t i f s
Dispersion int raclasse minimale : min uWu
Dispersion int erclasse maximale : max uBu
u
g
2
g
k
g
1
11
Ax es di sc r i mi nant s : deux
obj ec t i f s
Simult anit impossible
Compromis :
-1 -1


min max

max


V W B
u V u u W u u B u
u B u u B u
ou
u V u u W u
V Bu u W Bu u
= +

= +





= =
min ' min i
max ' max
u Wu Wu u
u Bu Bu u i


=
=
12
Ax es di sc r i mi nant s : deux
obj ec t i f s
ACP du nuage des g
i
avec :
Mt rique V
-1
Mt rique W
-1
Mahalanobis
( )
1
-1
a) Bu u
Bu u
Bu (W B)u
1- Bu Wu
b) W Bu u u
1-
V
V

=
=
= +
=
= =
13
Les di f f r ent s c as sel on
1
1.
1
= 0 : aucune sparat ion linaire nest possible, groupes
concent riques
2.
1
= 1 : sparat ion parfait e
3. Mais 0 <
1
< 1 : sparat ion possible avec groupes non recouvrant s
14
Nombr e dax es di sc r i mi nant s
ACP des groupes : dimension de lespace cont enant
les cent res des groupes g
i
Si n> p> k (cas frquent ), k-1 axes discriminant s
Exemple clbre : I ris de Fisher
K = 3 Set osa, Versicolor, Virginica
P= 4 longueur pt ale, longueur spale, largeur pt ale, largeur
spale
n
1
= n
2
= n
3
= 50
Donc deux axes
15
I ris set osa I ris versicolor I ris virginica
16
17
18
Di st anc e de MAHALANOBI S
Dist ance au sens de la mt rique W
-1
.
1. pour p= 1 :
2. p quelconque :
St andardisat ion de chaque composant e x
j
Dcorrlat ion...
( ) ( )
2 1
1 2 1 2
'
p
D g g W g g

=
g
1
D
p
g
2
( ) ( )
( ) ( )
2 1
1 2 1 2
2 1/ 2 1/ 2
1 2 1 2
1/2
'

p
p
W X
D g g W g g
D g g W W g g

=
.
2
2
1 2 1 2 1 2
1 1 2
1 2 1 2
(1; 2)

n n x x n n
D F n n
n n n n


= +

+ +


19
I nt er pr t at i on pr obabi l i st e
( ) ( )
( ) ( )
( ) ( )
2 2 -1
p
1 2 1 2
p p
1 2
2 2
p
1 1 2 2
2 1
1 2 1 2
thorique : '
2 populations N , et N ,
estimation (biaise) de

2
= '
p
p
Le
D
nV n V
W
n
D g g W g g

+
= =


20
( )
( )
( )
2 2
1 2
2
1 2
2
1 2
p
2
1
0
1
D ~ ; 1
2
p p
n pn
E D
n p n n
Si
n n n p
F p n p
n p n

= +



= =

I nt er pr t at i on pr obabi l i st e
21
Di st anc es de Mahal anobi s
ent r e 2 gr oupes par mi k
Thoriques :
Est imes :
( ) ( )
2 1
'
p i j i j

=
( ) ( )
1
2
'
p
i j i j
n
D g g W g g
n k


( )
( )
2
2
0
n-k-p+1
; n-k-p+1
n-k
i j
p
i j
Si
n n
D F p
n n p
=
=
+
22
I .2 Cas de deux gr oupes
g
1
et g
2
sont sur une une droit e : 1 seul axe discriminant :
RAPPEL : en ACP axe a, fact eur u = M a
Combinaison discriminant e proport ionnelle
M (g
2
- g
1
) = W
-1
(g
2
- g
1
) ou V
-1
(g
2
- g
1
)
FONCTI ON DE FI SHER :
1 1
2 1
1 1
2 1
2 1
( )
p p
X X
W g g W
X X


e
a
d e a
e Ma e u
M
= < >
= =
,
a g g = ( )
1 2
23
Hi st or i que
( )
p
j
j
j=1
1
2
d
1, 2 p
-1
1 2
-
Historiquement : d= u x =X u
d -d
Test (de Student) de comparaison de 2 moyennes : T=
s
Fisher (1936)
Trouver u , u , ..., u tel que T maximal.
Solution : u proportionnel W g -g
Nota : W

( ) ( )
( )
1 -1 2
1 2
1 2 1 2 p
n n
g -g = V g -g avec : =1+ D
n n-2
24
Une r gr essi on i ncor r ect e
y 2 valeurs (-1; + 1) ou (0; 1) ou (a; b)
a= n/ n
1
b= -n/ n
2
D
p
dist ance de Mahalanobis ent re groupes
I ncomprhensions et cont roverses!
1
1 2
2
2
2 2
2
2
1 2
1 2

( )
( 2)

( 2)
1
p
p
p
D
n n R
R D
n n
n n R
D
n n

= =


+
V g g
25
Consquenc es
Pas de t est ,
pas derreurs st andard sur les coefficient s
MAI S possibilit dut iliser les mt hodes de pas pas
en rgression.
Modle linaire usuel non valide :
en discriminante cest linverse que lon suppose :
2
/ ( ; ) y N X X I
/ ( ; )
p j
y j N = X
26
FONCTION LINEAIRE DISCRIMINANTE
VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA
........ VARIABLES FONCTION REGRESSION TYPES STUDENT
NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)
(SEUIL= 0.20)
..............................................................................................
3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154
4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006
5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317
6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897
7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173
8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549
9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849
CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958
..............................................................................................
R2 = 0.55759 F = 16.74489 PROBA = 0.000
D2 = 4.94213 T2 = 124.77643 PROBA = 0.000
..............................................................................................
27
I -3 Mt hodes gomt r i ques
de c l assement
chant illon dapprent issage
e observat ion de groupe inconnu
e class dans le groupe i t el que:
d(e ; g
i
) minimal

e
?
y x x
p
' . . .
.
.
.
1
1
2
1
g
1
g
2
g
3
G
1
G
2
G
3
e
28
Ut i l i sat i on des f onc t i ons
di sc r i mi nant es
On classe dans le groupe pour lequel la fonct ion est maximale.
( ) ( ) ( )
( )
2 1 1 1 1
2 1 1
1 2 k
1
11 21 k1
2
p
1p 2p kp
; ' ' 2 ' '
min d ; max 2 ' '
groupes k fonctions discriminantes
1 2 ....... k
1
X
X
X
i
i i i i i i
i i i i
d e g e g W e g e W e g W e g W g
e g g W e g W g
k




= = +


=

.
29
Linear Discriminant Function for Species
Setosa Versicolor Virginica
Constant -85.20986 -71.75400 -103.26971
SepalLength Sepal Length in mm. 2.35442 1.56982 1.24458
SepalWidth Sepal Width in mm. 2.35879 0.70725 0.36853
PetalLength Petal Length in mm. -1.64306 0.52115 1.27665
PetalWidth Petal Width in mm. -1.73984 0.64342 2.10791
30
Number of Observations Classified into Species
From
Species Setosa Versicolor Virginica Total
Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 1 49 50
Total 50 49 51 150
Priors 0.33333 0.33333 0.33333
31
pour deux gr oupes
On classe dans G
1
si:
Fonct ion de Fisher > c
Score de Fisher:
' 1 ' 1 ' 1 ' 1
1 1 1 2 2 2
1 ' 1 ' 1
1
1 2 1 1 2 2
2
2 2
( ) ' ( )
g W e g W g g W e g W g
g g W e g W g g W g


>
>
1 ' 1 ' 1
1
1 2 1 1 2 2 2
( ) ' ( ) g g W e g W g g W g


32
I nt er pr t at i on gomt r i que
Proj ect ion sur la droit e des cent res avec la
mt rique W
-1
Dualit axe-front ire plane
f r ont ir e
axe discr iminant
33
Rgl e de c l assement des pl us
pr oc hes voi si ns
On compt e le nombre dobservat ions de G
1
,
G
2
, parmi les k plus proches voisins et on
classe dans le groupe le plus frquent .
Cas limit e k = 1
34
Mt hode des pl us pr oc hes voi si ns (Hast i e and al )
35
36
37
38
39
40
Deux i me par t i e:
Di sc r i mi nat i on sur var i abl es
qual i t at i ves et sc or i ng
1. Le problme
2. Disqual
3. Les obj ect ifs du credit scoring
41
I I .1 Di sc r i mi nat i on sur
var i abl es qual i t at i ves
1 2 p 1 2 p
variable de groupe
X , X , ... , X Variables explicatives m , m , ... , m modalits

bon payeur
Y :
mauvais payeur
Y
Solvabilit d'emprunteurs auprs de banques
Exemples
1 2
1 2

X : sexe, X : catgorie professionnelle etc.

bon conducteur (pas d'accidents)
Y :
mauvais conducteur
X : sexe, X : t
Risque en assurance automobile
3
ranche d'ge, X : vhicule sportif ou non ...

Y numro de groupe
Reclassement dans une typologie
42
Un peu de (pr )hi st oi r e
Fisher (1940)
Un seul prdict eur
Equat ions de lAFC
I nt roduct ion du vocable Scores
43
44
45
Cas de 2 gr oupes : l e
sc or i ng
Deux ides quivalent es :
Transformer les variables qualit at ives
explicat ives en variables quant it at ives.
Donner des valeurs numriques (not es
ou scores) aux modalit s de faon
opt imale: maximiser la dist ance de
Mahalanobis dans R
p
Travailler sur le t ableau disj onct if des
variables explicat ives
Une ralisat ion : Passage par
lint ermdiaire dune analyse des
correspondances mult iples.
1 2

0 1 1 0 0
. . . .
.
.
X X







46
Var i abl es ex pl i c at i ves
qual i t at i ves
Quant i f i cat i on : Transformer une variable
qualit at ive en une variable numrique et se ramener
au cas prcdent .
Exemple : t at mat rimonial de 7 individus
Quant ificat ion :
1
1
2
2
2
3
4

a C
a C
C Clibataire
a M
M Mari
M a
V Veuf
M a
D Divorc
V a
D a



=

=


=

=




47
X Tableau disjonctif des variables
indicatrices
C M V D
1 0 0 0
1 0 0 0
0 1 0 0
0 1 0 0
0 1 0 0
0 0 1 0
0 0 0 1
F
H
G
G
G
G
G
G
G
G
G
I
K
J
J
J
J
J
J
J
J
J
Quant i f i c at i on
x
a
a
a
a
a
a
a
a
a
a
a
Xa =
F
H
G
G
G
G
G
G
G
G
G
I
K
J
J
J
J
J
J
J
J
J
F
H
G
G
G
G
I
K
J
J
J
J
=
1
1
2
2
2
3
4
1
2
3
4
= X
48
La f onc t i on de Fi sher est une
c ombi nai son l i nai r e des var i abl es
quant i f i es
S est une combinaison
linaire des (m
1
+ m
2
+ +
m
p
) indicat rices des
variables
i
1
j
1
X
1
i
p
i
I
m
i j
j
s
X

=
=
=
=

49
X nest pas de plein rang: rank(X)= m
i
-p
Solut ion classique: liminer une indicat rice par
prdict eur (GLM , LOGI STI C de SAS)
Disqual (Saport a, 1975):
ADL effect ue sur une slect ion de fact eurs de lACM
de X. Analogue de la rgression sur composant es
principales
Composant es slect ionnes de manire expert e selon
inert ie et pouvoir discriminant
50
I I .2 DI SQUAL
1
r e
t ape
Analyse des correspondances du t ableau des
prdict eurs.
k variables numriques : garder les coordonnes
fact orielles les plus discriminant es
1
. . .
1
2
.
=
.

.
n
k
z z
Z











1 2 3 4
Prop. Loc
Profession Logement
P P P P .
1 1 0 0 0 0 1
2 0 1 0 0 1 0
. .
... . .
. .
. .

variables indicatrices
X
n

51
2
me
t ape :
Analyse discriminant e linaire (Fisher).
Score = combinaison linaire des coordonnes fact orielles=
combinaison linaire des indicat rices des cat gories
Coefficient s = grille de not at ion
1
Score
k
j
j
j
d
=
=

s z
: coordonnes des catgories sur l'axe nj
j j j
z = Xu u
1 1
grille de score
k k
j j
j j
j j
s d Xu X d u
= =
= =

.
( )
1
1 2
1 2
.
.
( )
.
.
j j
j
j
z z
d
V



= =






V g g
z

52
Sl ec t i on des ax es
Selon lordre de lACM
% dinert ie
Selon le pouvoir discriminant
St udent sur 2 groupes,F sur k groupes
Rgularisat ion, cont rle de la VC dimension
53
Ex empl e assur anc e (SPAD)
1106 cont rat s aut omobile belges:
2 groupes: 1 bons, 2 mauvais
9 prdict eurs: 20 cat gories
Usage (2), sexe (3), langue (2), age (3), rgion
(2), bonus-malus (2), puissance (2), dure (2),
age du vhicule (2)
54
ACM
55
ADL de Fisher sur les composantes
FACTEURS CORRELATIONS COEFFICIENTS
..............................................................................
1 F 1 0.719 6.9064
2 F 2 0.055 0.7149
3 F 3 -0.078 -0.8211
4 F 4 -0.030 -0.4615
5 F 5 0.083 1.2581
6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169
8 F 8 0.090 1.3133
9 F 9 -0.074 -1.1383
10 F 10 -0.150 -3.3193
11 F 11 -0.056 -1.4830
CONSTANTE 0.093575
..............................................................................
R2 = 0.57923 F = 91.35686
D2 = 5.49176 T2 = 1018.69159
..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
56
scor es nor mal i ss
Echelle de 0 1000
Transformat ion linaire du score et du seuil
57
+----------------------------------------------------------------------------+
| | COEFFICIENTS | TRANSFORMED |
| CATEGORIES | DISCRIMINANT | COEFFICIENTS |
| | FUNCTION | (SCORE) |
+----------------------------------------------------------------------------+
| 2 . Use type |
| USE1 - Profess. | -4.577 | 0.00 |
| USE2 - private | 0.919 | 53.93 |
+----------------------------------------------------------------------------+
| 4 . Gender |
| MALE - male | 0.220 | 24.10 |
| FEMA - female | -0.065 | 21.30 |
| OTHE - companies | -2.236 | 0.00 |
+----------------------------------------------------------------------------+
| 5 . Language |
| FREN French | -0.955 | 0.00 |
| FLEM - flemish | 2.789 | 36.73 |
+----------------------------------------------------------------------------+
| 24 . Birth date |
| BD1 - 1890-1949 BD | 0.285 | 116.78 |
| BD2 - 1950-1973 BD | -11.616 | 0.00 |
| BD? - ???BD | 7.064 | 183.30 |
+----------------------------------------------------------------------------+
| 25 . Region |
| REG1 - Brussels | -6.785 | 0.00 |
| REG2 Other regions | 3.369 | 99.64 |
+----------------------------------------------------------------------------+
| 26 . Level of bonus-malus |
| BM01 - B-M 1 (-1) | 17.522 | 341.41 |
| BM02 - Others B-M (-1) | -17.271 | 0.00 |
+----------------------------------------------------------------------------+
| 27 . Duration of contract |
| C<86 - <86 contracts | 2.209 | 50.27 |
| C>87 - others contracts | -2.913 | 0.00 |
+----------------------------------------------------------------------------+
| 28 . Horsepower |
| HP1 - 10-39 HP | 6.211 | 75.83 |
| HP2 - >40 HP | -1.516 | 0.00 |
+----------------------------------------------------------------------------+
| 29 . year of vehicle construction |
| YVC1 - 1933-1989 YVC | 3.515 | 134.80 |
| YVC2 - 1990-1991 YVC | -10.222 | 0.00 |
+----------------------------------------------------------------------------+
Gr i l l e de sc or e ( sc or ec ar d )
58
Cas des pr di c t eur s numr i ques
Si prdict eurs numriques (t aux
dendet t ement , revenu )
Dcoupage en classes
Avant ages, dt ect ion des liaisons non linaires
59
Pr i se en c ompt e des i nt er ac t i ons
Amliorat ion
considrable de
lefficacit du score
Exemple : t at
mat rimonial et nombre
denfant s.
( ) ( )
( )
1 1 0 . . . 0
2 0 1 . . . 0
. .
. .
. .
.
. n












3
1 2 1 2 3
1 1 1 2 2

2 catgories 3 catgories
M M E E E
variable croise 6 catgories
ME ME M E
( ) ( )
1 1 2 2
... Score f x f x = + + Rappel :
Modle additif interaction sans
60
Un ex empl e banc ai r e
15 000 dossiers de demandes de prt
1000 passs en cont ent ieux
Variables:
Taux dendet t ement
Revenu disponible par personne du mnage
Sit uat ion dans le logement
St at ut mat rimonial
Nombre denfant s
Profession
Anciennet dans lemploi
61
Gr i l l e de sc or e
Rat io dendet t ement :
Revenu disponible par personne du mnage :
Sit uat ion dans le logement :
62
Gr i l l e de sc or e (sui t e)
t at mat r i moni al et enf ant s c har ge :
63
Gr i l l e de sc or e (sui t e)
pr of essi on et st abi l i t dans l empl oi :
64
Ex empl e :
Not e de score : + 60
65
Rpar t i t i ons par t r anc hes de sc or e
66
Rpar t i t i on sel on l e sc or e
67
Si mul at i on
68
Cour be de l i f t (ef f i c ac i t du c i bl age)
69
I I .3 Les obj ec t i f s du c r edi t
sc or i ng
Sl ec t i on des r i sques
Pr vi si on des i mpays
Sui vi et c ont r l e
70
Cr edit scor ing is t he set of decision models and t heir
under lying t echniques t hat aid lender s in t he gr ant ing of
consumer cr edit .
Cr edit scor ing is one t he most successf ul applicat ions of
st at ist ical modeling in f inance and banking. Yet because
cr edit scor ing does not have t he same glamour as t he
pr icing of exot ic f inancial der ivat ives or por t f olio analysis,
t he lit er at ur e on t he subj ect is ver y limit ed.
Thomas & al. 2002
c r edi t sc or i ng
71
Le c omi t de Bl e sur l a super vi si on
banc ai r e
Cr en 1974 par le G10
Banque des Rglement s I nt ernat ionaux (BI S)
Rduir e la vulnr abilit par la mise en place dun
r at io pr udent iel at t est ant dun niveau minimal
de f onds pr opr es.
Accords Ble I I
72
Bl e 2
Une rvolut ion quant it at ive (A.L.Rmy Crdit
Agricole)
banks ar e expect ed t o pr ovide an est imat e of
t he PD and LGD
PD (probabilit y de dfaut )
LGD (pert e en cas de dfaut )
EAD (exposit ion en cas de dfaut )
Calcul du capit al ncessaire au niveau de
confiance 99.9% un an
73
I mpact norme sur les t udes st at ist iques.
Exigence de j ust if icat ion st at ist ique et de
backt est ing impos par le r gulat eur (Commission
Bancair e)
Recrut ement s massifs
Le New Basel Capit al Accord rgulera les prt s
bancaires part ir de 2007
74
LES DI FFERENTES ETAPES
DE REALI SATI ON
ECHANTI LLONNAGE
COLLECTE DE LI NFORMATI ON
REDRESSEMENT
SELECTI ON DES CRI TERES
CONSTRUCTI ON DU MODELE
SI MULATI ON
MI SE EN OEUVRE
75
1. ECHANTI LLONNAGE
OBJECTI F :
CONSTRUI RE UN ECHANTI LLON REPRESENTATI F DE LA
DEMANDE ET DU COMPORTEMENT DU PAYEUR.
1.1. PRI SE EN COMPTE DES DOSSI ERS REFUSES
LES TROI S STRATES DE LA DEMANDE
76
PROBLEME
UN SCORE CALCULE UNI QUEMENT SUR LES
DOSSI ERS ACCEPTES NE SAPPLI QUE PAS A
LENSEMBLE DE LA DEMANDE.
77
PRI SE EN COMPTE DE LA
DI MENSI ON TEMPORELLE
DEUX POSSI BI LI TES :
A ) OBSERVER UNE COUPE I NSTANTANEE
I NCONVENI ENT:
CERTAI NS DOSSI ERS SONT CONSI DERES COMME BONS
ALORS QUI LS DEVI ENDRONT MAUVAI S PAR LA SUI TE.
B ) OBSERVER UNE POPULATI ON DE DOSSI ERS
TERMI NES
I NCONVENI ENT:
LA STRUCTURE DE LA POPULATI ON OBSERVEE NE
CORRESPOND PAS A LA STRUCTURE ACTUELLE.
78
2. LA COLLECTE DE
LI NFORMATI ON
OBJECTI F:
BATI R UN FI CHI ER CONTENANT TOUTES LES I NFORMATI ONS
CONNUES SUR LES REFUSES AI NSI QUE LES BONS ET MAUVAI S
PAYEURS.
PROBLEMES:
PAS DE STOCKAGE I NFORMATI QUE DES OBSERVATI ONS
I NDI VI DUELLES
PAS DE CONSERVATI ON DES DOSSI ERS REFUSES
PAS DE STATI STI QUES PERMETTANT DELABORER LE PLAN DE
SONDAGE
HI STORI QUE TROP COURT OU ABSENT
79
3. REDRESSEMENT
OBJECTI F: REDONNER A LECHANTI LLON LA
STRUCTURE DE LA DEMANDE ACTUELLE.
DEUX FAMI LLES DE METHODES :
A) SCORE ACCEPTE/ REFUSE
HYPOTHESE: LES REFUSES DUN TRANCHE ONT LE MEME
COMPORTEMENT QUE LES ACCEPTES.
80
3. REDRESSEMENT
B) SI MULATI ON DU COMPORTEMENT
PRI NCI PE : CHAQUE DOSSI ER REFUSE SERAI T
DEVENU BON (OU MAUVAI S) AVEC UNE PROBABI LI TE
A ESTI MER.
81
4. SELECTI ON DES CRI TERES
OBJECTI F:
CHOI SI R LES VARI ABLES ET LES I NTERACTI ONS A
I NTRODUI RE DANS LE MODELE.
LES PROBLEMES :
DECOUPAGE/ REGROUPEMENT EN CATEGORI ES.
CHOI X DES I NTERACTI ONS.
CHOI X DES VARI ABLES LES PLUS EXPLI CATI VES.
CHOI X DES VARI ABLES LES MOI NS CORRELEES ENTRE
ELLES.
82
7. LA MI SE EN UVRE
OBJECTI F:
I NTRODUI RE LE SCORE COMME OUTI L DE
SELECTI ON, DE PREVI SI ON ET DE SUI VI .
LES PROBLEMES :
FORMATI ON DES UTI LI SATEURS.
MI SE EN PLACE DES OUTI LS I NFORMATI QUES.
REACTUALI SATI ON.
83
3
me
par t i e : Anal yse
di sc r i mi nant e pr obabi l i st e.
1. Rgle baysienne et loi normale.
2. Mt hodes non paramt riques.
84
I nsuf f i sanc es des r gl es
gomt r i ques
Mesures de dist ances ?
Risques derreurs ?
Probabilit s dappart enance ?
x
g
1
g
2
85
I I I .1Rgl e baysi enne
3 possibilit s :
Paramt rique : lois normales avec galit ou non des
j
Non paramt rique : noyaux ou plus proches voisins
Semi-paramt rique : rgression logist ique est imat ion
direct e de :
( )
( )
'
0
j
0
exp
P (G / )
1 exp '
x
x
x


+
=
+ +
p
j
probabilit a priori dappartenir au groupe j
f
j
(x) loi des x
i
dans le groupe j
1
( )
Formule de Bayes : ( / )
( )
j j
j
k
j j
j
p f
P G
p f
=
=

x
x
x

Problme : estimer les f
j
(x)
86
La r gl e baysi enne
nave dans l e c adr e nor mal
( )
( )
( )
( )
( ) ( )
( )
( ) ( )
j
1
1/ 2
/ 2
j j
1
j j
x densit d'une N ;
1 1
exp -
2
2
max p f x attribuer x au groupe le plus
probable a posteriori
1 1
max Ln p
2 2
j j
j j j j
p
j
j j j
f
f x x x
x x Ln


rgle quadratique



87
La r gl e baysi enne
1 2
1 1 1
j
1
j

simplificatrice : ... =
On attribue x au groupe j tel que :
1 1
max Ln p
2 2
1
: max Ln p
2
j j j
j j
j
indpendant
du groupe
a
Hypothse
x x x
donc


=



+





.
.
1
j j
Rgle linaire quivalente la rgle gomtrique si quiprobabilit, aprs estimation
de par g et de par W.
j
x

88
Anal yse di sc r i mi nant e pr obabi l i st e:
c as de deux gr oupes
( )
( ) ( )
( ) ( ) ( )
1 1 2 2
1
1
2 2
1 2 2 2 2
2
1 2 1 2 1 2
1
fonction de Fisher
Affecter au groupe 1 si ( ) ( )
1 1
( ) exp '
2
2
1 1
ln( ) ln( )
2 2
1
' ln '
2
i i i
p
p f p f
f
p p
p
p


>

=


+ > +

> + +


' -1 ' -1 ' -1 ' -1
1 1 1
-1 -1
x x
x x x

x x
x
.
89
Fonc t i on de sc or e et pr obabi l i t
Fonct ion de score S(x) :
Rgle : affect er au groupe 1 si S(x)> 0
Probabilit dappart enance au groupe 1 :
( )
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1
1
1
1 2
2 1
1
1 1
1 1
1 1 2 2
1 1
1 1 2 2
1/ 2
1/ 2 1/ 2
1/ 2 1/ 2
G /
/
P
1/ 1
x x
x x x x
x x x x
p e
x
p e p e
p p e p






+
+
=
= +
1 1
1
1 2 1 2 1 2
2
1
( ) ( ) ' ln( ) ( ) ' ( )
2
p
S
p

= + + x x
90
pr obabi l i t
Fonct ion logist ique du score
Expression en fonct ion des dist ances de Mahalanobis
aux cent res :
( ) ( )
( )
( ) ( )
2 2
2 1
1/ 2 ; ;
2 1
2 2
2 1
2 1
1

1 /
Si P alors S x 1/ 2 ; ;
x x
P
P P e
P x x





=
+

= =

( )
( )
1 1
1
( )
ln(1/ ( / ) 1) ( ) 1/ ( / ) 1
1 exp( ( ))
( / )
1 1 exp( ( ))
S
S
P G S P G e
S
P G
e S

= = +
= =
+ +
x
x
x x x
x
x
x
91
S(x )
2
1
1
( ( ) 0) ln
2
p
p
p
P S x P U
p


> = > +




Probabilit derreur de classement de G2 en G1 :
On classe en G1 si S(x)> 0
92
Rgl e de Bayes avec c ot s
d er r eur
Maximiser la probabilit a post eriori peut conduire des rgles
absurdes.
Cot s d erreurs :
C(1/ 2) si on classe en G1 un individu de G2
C(1/ 1) = 0
Cot moyen a post eriori dun classement en G1 : C(1/ 2) P(G2/ x)
Cot moyen a post eriori dun classement en G2 : C(2/ 1) P(G1/ x)
On classera x en G1 si C(1/ 2) P(G2/ x) < C(2/ 1) P(G1/ x)
( ) ( )
( )
( )
( ) ( )
2 2 1 1 1 1
1 1 2 2 1 1 2 2 2 2
' '
1 1 2 2
1/ 2
1/ 2 < c 2/1 donc si : >
c 2/1
Rgle habituelle avec p =p c 2/1 et p =p c 1/2
c
p f p f p f
c
p f p f p f p f p f + +
93
I I I 2 : Di sc r i mi nant e non
par amt r i que
( )
( )
( )
( )
( )
j
P G /

j j
j j
j
j
p f x
Bayes x
p f x
f x
Frquence
f x
Volume
=

=
x
x
x
x
x
x
x
x
x
x
x
x
x
94
Fent r e mobi l e: c as
uni di mensi onnel
I de (Parzen-Rosenblat t ): un hist ogramme o
chaque classe serait cent re sur lobservat ion
courant e
h
x
Fentre mobile
95
Fent r e mobi l e
( )

/
Estimateur
discontinu.
x
f x n nh =
96
1
1/2 -1/2 0
( )
( )
( )
] [
1
i
1

t 1/ 2 ; 1/ 2 1
0
sinon
h h
1 si x x- ; x+
2 2
n
i
i
i
x x
f x k
nh h
si K t
K t
x x
K
h
=


=


=

( )
1
1

Mthode du noyau
fonction de densit
n
i
i
x x
f x k
nh h
k
=

densi t
97
Choi x du noyau
K cont inue, paire, unimodale
Exemples
K pas forcment posit if
( ) 1 K x dx
+

2
2
1 1 3
( ) exp ( ) 1 pour 5 Epanechnikov
2 5
2 4 5
u
K u u K u u



= = <



( ) ( )
2
2 2
105
( ) 1 1 3 pour 1 Lejeune
64
K u u u u =
98
Quel ques r sul t at s t hor i ques
I l nexist e pas dest imat eur sans biais dune
densit qui soit cont inu, symt rique en x
i
Crit re du MI SE

( ( )) ( ) est impossible E f x f x x =
( )
2

( ) ( ) E f x f x dx
+

99
Si
En subst it uant h
opt
qui dpend de f
Calcul des variat ions:
K opt imal = Epanechnikov
Noyau moins influent que la const ant e de lissage
( ) ( )
( ) ( )
2
2
4
2 2
2
4 1
2 1
2 2 5 5
5 5
2
( ) 1 ( ) 0 et ( )
1
MISE "( ) ( )
4
( ) "( )
optimal
K x dx xK x dx x K x dx k
h
k f x dx K x dx
nh
h k K x dx f x dx n
+ + +

+ +

+ +

= = =
+

=





=
( ) ( )
4 1
2 4
2 2 5 5
5 5
2
5
( ) "( )
4
MISE k K x dx f x dx n
+ +





=
100
Par amt r e de l i ssage h
h (ou r) Joue le mme rle que la largeur de classe
dans lhist ogramme.
Est imat ion de h :
Mt hodes visuelles (si p = 1)
Maximum de vraisemblance
h pet it : h grand :
15 25 35 45 55
0
0.01
0.02
0.03
0.04
0.05
0.06
15 25 35 45 55
0
0.01
0.02
0.03
0.04
0.05
101
Est i mat i on de densi t par l a
mt hode du noyau l ment ai r e
Noyau uniforme
On compt e le nombre
dobservat ions appart enant
la boule de rayon r.
Ce nombre est alat oire.
Plus proches voisins.
k nombre de voisins est fix.
Volume de la boule :
alat oire.
( )
k paramtre fixer
k
f x
nV
=
r
x
102
noyaux
( ) ( )
( )
( )
( )
( )
( ) ( )
t
-1 2
t
t
1
t
2
0
t 1
1
f
1
si z' V
uniforme k
0 sinon
1 1 '
normal k exp -
2
'
Epanechnikov k 1
noyaux
t
t
y
r
t
x k x y
n
z r
V t
z
z V z
z
C t r
z V
z C t


=




=


=

( ) ( )
( ) ( )
1
-1 2
t
2
2
1
t 2
2
3
1
t 3
2
si z' V
'
Biweight k 1
'
Triweight k 1
t
t
t
z
z r
r
z V z
z C t
r
z V z
z C t
r






=



=


103
Est i mat i on de densi t ver sus
di sc r i mi nat i on l i nai r e
Discriminat ion linaire :
simplicit , robust esse, int erprt at ion
inefficace si non linarit s fort es
Est imat ion de densit :
prcision, adapt at ion aux donnes
calculs complexes, absence dint erprt at ion
104
4 me par t i e: La r gr essi on
l ogi st i que
I V.1 Le modle logist ique simple
I V.2 Odds rat ios
I V.3 I nt erprt at ion conomt rique
I V.4 Est imat ion
I V.5 Test s
I V.6 Rgression logist ique mult iple
I V.7 Comparaison avec lanalyse discriminant e
105
Berkson (biost at ist ique) 1944
Cox 1958
Mc Fadden (conomt rie) 1973
106
IV.1 Le modle logistique simple
Rponse dichot omique : Y = 0 / 1
Variable explicat ive : X
Obj ect if : Modliser
Le modle linaire (x) =
0
+
1
x
convient mal lorsque X est cont inue.
Le modle logist ique est plus nat urel
(x) = Prob(Y = 1/X = x)
107
Ex empl e : Age and Cor onar y Hear t
Di sease St at us (CHD) (Hosmer & Lemeshow ;
M.Tenenhaus)
Les donnes
ID AGRP AGE CHD
1
2
3
4
5
.
97
98
99
100
1
1
1
1
1
.
8
8
8
8
20
23
24
25
25
.
64
64
65
69
0
0
0
0
1
.
0
1
1
1
108
AGE
70 60 50 40 30 20 10
C
H
D
1.2
1.0
.8
.6
.4
.2
0.0
-.2
109
Desc r i pt i on des donnes r egr oupes
par c l asse dage
Age Group n
CHD
absent
CHD
present
Mean
(Proportion)
20 29
30 34
35 39
40 44
45 49
50 54
55 - 59
60 - 69
10
15
12
15
13
8
17
10
9
13
9
10
7
3
4
2
1
2
3
5
6
5
13
8
0.10
0.13
0.25
0.33
0.46
0.63
0.76
0.80
Total 100 57 43 0.43
Tableau des effectifs
de CHD par classe dage
Graphique des proportions
de CHD par classe dage
AGEGRP
8 7 6 5 4 3 2 1
P
r
o
p
o
r
t
i
o
n

(
C
H
D
)
1.0
.8
.6
.4
.2
0.0
110
Le modl e l ogi st i que si mpl e
x
x
1 0
1 0
e 1
e
) x (
+
+
+
=
x )
) x ( 1
) x (
( Log
1 0
+ =

ou
Probabilit d'une maladie cardiaque
en fonction de l'age
AGE
70 60 50 40 30 20 10
P
r
o
b
(
Y
=
1

/

X
)
1.0
.8
.6
.4
.2
0.0
Fonction de lien : Logit
111
I l sagit bien dun problme de rgression:
Modlisat ion de lesprance condit ionnelle
E(Y/ X= x)= f(x)
Choix de la forme logist ique en pidmiologie:
Saj ust e bien
I nt erprt at ion de
1
en t ermes dodds-rat io
112
I V.2 Odds-Rat i o
Si X binaire (suj et expos X= 1, non expos
X= 0)
0 1 0
0 1 0
1 / 1 ( 1 / 0) ( )
1 1
Y X P Y X P
e e
e e


+
+
= = = = = =
+ +
1
( 1/ 1) / ( 0/ 1)
( 1/ 0) / ( 0/ 0)
P Y X P Y X
OR e
P Y X P Y X

= = = =
= =
= = = =
113
Odds-Rat i o
Mesure lvolut ion du rapport des chances
dapparit ion de lvnement Y= 1 cont re Y= 0
(la cot e des parieurs) lorsque X passe de x
x+ 1.
Formule gnrale:
1
( 1) /(1 ( 1))
( ) /(1 ( ))
x x
OR e
x x



+ +
= =

114
I V.3I nt er pr t at i on c onomt r i que
Y possession dun bien durable par un
mnage: manifest at ion visible dune variable
lat ent e Z inobservable cont inue.
Z est l int ensit du dsir de possder le
bien
Si Z< seuil Y= 0, sinon Y= 1
Le seuil peut t re choisi gal 0
115
Modl e dut i l i t
pour le mnage i de caract rist iques x
i
(ge, sexe,
revenu, CSP...), la possession du bien procure un
niveau dut ilit U(1,x
i
), la non possession U(0,x
i
).
Y
i
= 1 U(1,x
i
) > U(0,x
i
)
Y
i
= 0 U(0,x
i
) > U(1,x
i
)
Variable lat ent e Z
i
= U(1,x
i
) U(0,x
i
).
116
Modl e dut i l i t (sui t e)
Z
i
= x
i
+
i

i
= P(Y
i
= 1| x
i
)= P(Z
i
> 0)= P(x
i
> -
i
) = F(x
i
)
F fonct ion de rpart it ion de -
i
Choix de F:
Logist ique : modle logit , rgression logist ique
Normal: modle probit
117
Compar ai son l ogi t -pr obi t
Logit : F(x) = 1/ (1+ e
-x
)
E(X)= O V(X)=
2
/ 3
Peu diffrent en
prat ique
Logit plus simple
numriquement
118
I V.4 Est i mat i on des par amt r es
Les donnes
X Y
x
1

.
x
i

.
x
n
y
1

.
y
i

.
y
n


y
i
= 1 si caractre prsent,
0 sinon
i 1 0
i 1 0
x
x
i i
e 1
e

) x X / 1 Y ( P ) x (
+
+
+
=
= = =
Le modle
119
Vr ai sembl anc e (c ondi t i onnel l e!)
Probabilit dobserver les donnes
[ (x
1
,y
1
), , (x
i
,y
i
), , (x
n
,y
n
)]

=
= = =
n
1 i
i i
) x X / y Y ( Prob

=

=
n
1 i
y 1
i
y
i
i i
)) x ( 1 ( ) x (
) , ( L
1 0
=

+
+
+
+
+

+
=
n
1 i
y 1
x
x
y
x
x
i
i 1 0
i 1 0
i
i 1 0
i 1 0
)
e 1
e
1 ( )
e 1
e
(
120
max i mum de vr ai sembl anc e
maximisent
Maximisat ion de la log-vraisemblance
Est imat eurs obt enus par des procdures
numriques: pas dexpression analyt ique
1 0

et


0 1
( , ) ( ) L L =
[ ]
1
( ) log ( ) log ( ) (1 ) log(1 ( ))
n
i i i i
i
L y x y x
=
= = +

/
1
0
1
1
( )
( ( )) 0
( )
( ( )) 0
n
i i
i
n
i i i
i
y x
x y x

=
=

= =

= =

/
/

121
Pr c i si on (asympt ot i que) des est i mat eur s
La mat rice
est est ime par la mat rice
0 0 1
0 1 1

( ) ( , )

( )

( , ) ( )
V Cov
V
Cov V



=


1
2
2

( ) Log L

122
1
2
2

1
1 1
2
1 1
1 1 1 1
( )

( )

(1 ) (1 )


(1 ) (1 )

1 (1 ) 0 1


1 0 (1 ) 1
n n
i i i i i
i i
n n
i i i i i i
i i
n n n n
V
x
x x
x x
x x




= =
= =




/
. . . .

1
1
( ) .

= XVX
123
Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio

INTERCPT 1 -5.3095 1.1337 21.9350 0.0001 . .
AGE 1 0.1109 0.0241 21.2541 0.0001 0.716806 1.117
5,3095 0,1109
5,3095 0,1109
( )
1
x
x
e
x
e

+
+
=
+
124
125
I V.5 Test s sur l es par amt r es
Trois mt hodes sont disponibles pour t est er
lapport de la variable X au modle :
1. Le t est de Wald
2. La mt hode du rapport de vraisemblance
3. Le t est du score
H
0
:
j
= 0
H
1
:
j
0
126
Test de Wal d
analogue un t est de St udent en rgression usuelle,
si lon considre la st at ist ique w dfinie par :
reprsent e lest imat ion de lcart -t ype de
lest imat eur de
1
.
Sous lhypot hse H
0
, w
2
suit approximat ivement une
loi du khi-deux un degr de libert .
Rej et de H
0
si w
2
1
1

( )
w
s

=
1

( ) s
) 1 (
2
1

127
Test du r appor t des vr ai sembl anc es
Lapport de la variable X est mesur laide de la
st at ist ique :
G = -2 log [ ]
sous lhypot hse H
0
G suit asympt ot iquement une loi du
khi-deux un degr de libert .
Vraisemblance sans la variable:
Vraisemblance sans la variable
Vraisemblance avec la variable
0 1
0 1
n n
n n
n n



128
Test du sc or e
U vect eur des drives part ielles de la log-
vraisemblance est imes
Le score suit galement asympt ot iquement
sous H
0
une loi du khi-deux un degr de
libert
En rgression logist ique simple, le score est
gal nr
2
, o r est le coefficient de corrlat ion
linaire (abusif! ) ent re Y et X
0
0 0
1

( ) ( ) ( )
H H
H
score U J U

=

129
Compar ai son des 3 t est s
130
Model Fitting Information and Testing Global Null Hypothesis BETA=0

Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates

AIC 138.663 111.353 .
SC 141.268 116.563 .
-2 LOG L 136.663 107.353 29.310 with 1 DF (p=0.0001)
Score . . 26.399 with 1 DF (p=0.0001)
131
I nt er val l e de c onf i anc e de l odds-Rat i o
2
1 1
s )

( Var =
Do lintervalle de confiance de OR(1) au niveau 0.95:
] e , e [
1 1 1 1
s 96 . 1

s 96 . 1

+
132
I nt er val l e de c onf i anc e de (x )
au ni veau 95%
x
x
1 0
1 0
e 1
e
) x (
+
+
+
=
De
x s 2 x s s ) x

( Var
01
2 2
1
2
0 1 0
+ + = +
on dduit lintervalle de confiance de :
]
e 1
e
;
e 1
e
[
) x

( Var 96 . 1 x

) x

( Var 96 . 1 x

) x

( Var 96 . 1 x

) x

( Var 96 . 1 x

1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
+ + +
+ + +
+ +
+ +
+ +
133
Compar ai son ent r e l es pr opor t i ons
obser ves et t hor i ques
Classe d'age
8 7 6 5 4 3 2 1
P
r
o
p
o
r
t
i
o
n
1.0
.8
.6
.4
.2
0.0
Prop. observe
Prop. thorique
Proportion observe :

Classe i
Classe i
n y /
Proportion thorique :

Classe i
Classe i
n /

puisque E(y
i
) =
i
estim par
i

134
I V.6 Rgr essi on l ogi st i que
mul t i pl e
Gnralisat ion p variables explicat ives
X
1
,, X
p
.
Est imat ion par le maximum de vraisemblance
Ne converge pas t ouj ours: cas de la sparat ion
complt e
0 1 1
0 1 1
...
...
( ) ( 1/ )
1
p p
p p
x x
x x
e
x P Y X x
e

+ + +
+ + +
= = = =
+
135
Pr obabi l i t s a post er i or i et st r at i f i c at i on
Est imer P demande de connat re les vraies probabilit s a priori
Les modifier change seulement
0
en ADL et en logist ique: on aj out e
Proc DI SCRI M
PRI ORS st at ement
Proc LOGI STI C
PEVENT opt ion MODEL st at ement (SAS 8)
PRI OR (ou PRI OREVENT) opt ion SCORE st at ement (SAS 9)
I mport ant pour les probabilit s , pas pour un score
1
2
ln
p
p



136
Test s
Test s dabsence deffet de t out es les
variables: H
0
:
1
= =
p
= 0
Rapport de vraisemblance G
Score t est U
Test de Wald
Sous H
0
, suivent t ous t rois asympt ot iquement une
loi du
2
p ddl
137
I V.7 Compar ai son avec
l anal yse di sc r i mi nant e
Avant ages proclams:
Unicit et int erprt abilit des coefficient s (odds-
rat ios)
Erreurs st andard calculables
Modlisat ion des probabilit s
Hypot hses plus gnrales quen AD gaussienne
Maximum de vraisemblance au lieu de moindres
carrs (rgression linaire de Y sur les X
j
)
Prise en charge facile des X qualit at ifs (logiciels)
138
Mais:
Erreurs st andard asympt ot iques , boot st rap en AD
Non convergence en cas de sparat ion parfait e.
Fisher exist e t ouj ours
Maximum de vraisemblance condit ionnel: non
opt imal dans le cas gaussien st andard
LAD peut aussi t rait er les variables qualit at ives, et
de manire plus robust e grce aux cont raint es de
sous-espace (Disqual)
139
Querelle largement idologique (modlisat ion
versus analyse des donnes)
LAD est aussi un modle, mais sur les lois des X/ Y,
la logist ique sur les lois de Y/ X
En prat ique diffrences peu net t es: fonct ions
de score souvent t rs proches
I t is gener ally f elt t hat logist ic r egr ession is a saf er ,
mor e r obust bet t han t he LDA model, r elying on f ewer
assumpt ions . I t is our exper ience t hat t he models give
ver y similar r esult s , even when LDA is used in
inappr opr iat ely, such as wit h qualit at ive var iables.
Hast ie and al.(2001)
140
I nf ar c t us: c ompar ai son
Fi sher et l ogi st i que
Courbe ROC
1 - Spcificit
1.00 .75 .50 .25 0.00
S
e
n
s
i
t
i
v
i
t

1.00
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
141
Assur anc e
142
Usages souvent diffrent s: AD pour classer, logist ique
pour modliser (fact eurs de risque)
Logist ique aussi ut ilise en scoring
Si lobj ect if est de classer:
On ne fait plus de la science mais de laide la dcision
Mieux vaut essayer les deux mt hodes.
Mais comment les comparer?
Le vrai crit re de choix est la performance en gnralisat ion
143
5me par t i e:
l es SVM (spar at eur s vast e
mar ge ou suppor t vec t or
mac hi nes)
144
V.1 Du per c ept r on aux SVM
Algorit hme de Rosenblat t (1958), la premire
machine apprendre
145
Du per c ept r on aux SVM
Equat ion de lhyperplan sparat eur
( ) 0 f b = + = x w'x
146
Un peu de gomet r i e
Equat ion dun hyperplan:
Coefficient s dfinis un fact eur prs:
b= 1 ou
Dist ance lhyperplan:
( ) 0 f b b = + = + = x w'x x'w
b
d
+
=
w'x
w
1 = w
147
Minimiser la somme des dist ances au plan des
observat ions mal classes
Y
i
= 1 mal class si wx
i
+ b< 0
Y
i
= -1 mal class si wx
i
+ b> 0
mal classs
mal classs mal classs
min ( ( ))
gradient
b
i i
i i i
y b
y y
+

= =


w'x
x
w
148
Gradient st ochast ique (obs. par obs.)
coefficient dapprent issage
Solut ions mult iples dans le cas sparable
selon linit ialisat ion
Non convergence dans le cas non sparable
1
i i
i
n n
y
y b b


+


x w w
149
V.2 Lhyper pl an opt i mal (Vapni k )
Fr ont i r e avec no mans l and maxi mal ,
Hyper pl an pai s
150
Hyper pl an opt i mal
Maximise la marge ou rayon du corridor:
dist ance du point le plus proche lhyperplan
151
Cas sparable
Marge C: t ous les point s sont une dist ance
> C
'
'
'
max sous ( ) et 1
contrainte quivalente: ( )
1
ou car et dfinis l'chel
min sous ( ) 1
le prs
i i
i i
i i
C y b C
y b
y b
C
b
C
+ =
+
=
+

x w w
x w w
w x w
w w
152
Pr ogr amme quadr at i que
Lagrangien:
Do:
Dual de Wolfe
2
'
2 ( ) 1
i i i
y b

+

w x w
1 1
et 0
n n
i i i i i
i i
y y
= =
= =

w x
'
1
1
max
2
avec 0 et 0
i i k i k i k
n
i i i
i
y y
y


=

x x
153
Condit ions de Khn et Tucker:
w, donc lhyperplan, ne dpend que des
point s support s o les
i
sont non nuls.
( ) 1 0
0 alors ( ) 1
( ) 1 alors 0
i i
i i
i i
y b
Si y b
Si y b


+ =

> + =
+ > =
'
i
'
i
'
i
x w
x w
x w
154
Solut ion
f(x) ne dpend que des point s support s
est une combinaison linaire des variables (score)
rgle de dcision selon le signe de f(x)
0
'
0 0

( )
i
i i
n
i i i
n n
i i i i i
y
f b y b y b


>
> >
=
= + = + = +


i
w x
x w x x x x x
155
Lhyperplan opt imal ne dpend que des point s
proches (diffre de Fisher)
VC dimension:
Plus la marge est grande, meilleure est la
robust esse en principe.
Mais pas t ouj ours :
2
2
o x
R
h R
C

156
V.3 Le c as non spar abl e
Deux solut ions:
modifier le crit re
changer despace pour rendre le
problme linairement sparable
157
Variables dcart
On borne la proport ion de point s t ombant du
mauvais ct .
La solut ion ne dpend que des point s
support s o :
min sous ( ) 1
et
i i
i
y b

+
<

'
i
w x w
( ) 1
i i
y b + >
'
i
x w
158
Formulat ion quivalent e:
C cont rle le t rade-off ent re la marge et
lerreur.
0<
i
<
2
min ave ( ) 1 c
i i i
C y b


+ +

'
i
x w w
159
SVM non-l i nai r es
Passage dans un espace de donnes
t ransformes ( feat ure space ) de grande
dimension
Un sparat eur linaire dans (E) donne un
sparat eur non-linaire dans E.
160
161
162
Sol ut i on
1
max
2

0 et 0
i i k i
k
i i i
y y
C y

< < =

i k
(x ) (x )
1
Solution ( )
n
i i
i
f y b
=
= +

i
x (x ) (x)
Ne dpend que des produit s scalaires
163
Espac es de Hi l ber t noyaux
r epr odui sant s
Noyaux K(x,x)= (x) (x)
Le kernel t rick : choisir ast ucieusement K
pour faire les calculs uniquement dans
lespace de dpart .
Exemple:
Dans lespace darrive:
2 2
1 2 1 1 2 2
x ( ; ) (x) ( ; 2 ; ) x x x x x x = =
2 ' 2 ' ' 2 ' 2
1 1 1 2 1 2 2 2
' ' 2 2
1 1 2 2
(x) (x ') 2
( ) (xx ')
x x x x x x x x
x x x x
= + +
= + =
164
On peut donc calculer le produit scalaire dans
(E) sans ut iliser

Condit ions de Mercer pour avoir un noyau:


k(x
i
; x
j
) t erme gnral dune mat rice sdp
supports
Solution ( ) ( ; )
i i i
i
f y K b

= +

x x x
165
Ex empl es de noyaux
Linaire K(x; x)= < x; x>
Polynomial K(x; x)= (< x; x> )
d
ou (< x; x> + 1)
d
Gaussien (radial basis)
K(x; x)= exp-(| | x-x| |
2
)/
2
)
166
Joachims
167
168
Hast ie, Tibshirani, Friedman : The Element s of St at ist ical Learning , Springer-Verlag, 2001
169
Le pr obl me de l a gnr al i sat i on.
l es SVM vi t ent :
Le risque de surapprent issage ( curse of
dimensionalit y )
Linfinit de solut ions dans le cas sparable
(problme mal pos)
170
Le pr obl me de l a gnr al i sat i on.
l es SVM :
Cont rlent la capacit de gnralisat ion en
augment ant la marge car:
Ne dpend pas de la dimension de lespace
(vent uellement )
2
2
o x
R
h R
C

171
Appr oc hes voi si nes
LS-SVM, GDA (Baudat , Anouar) : fonct ion de Fisher
dans le feat ure space
172
Quel ques r f r enc es
ht t p: / / www.kernel-machines.org
Th.Joachims t ut orial SVM
C.Burges a t ut orial on SVM for pat t ern recognit ion
O.Bousquet int roduct ion aux SVM ,
ht t p: / / www.mat h.u-psud.fr/ ~ blanchard/ gt svm/ int ro.pdf
J.Suykens et al. Least squares support vect or
machines , World Scient ific, 2002
Logiciels:
ht t p: / / svm.dcs.rhbnc.ac.uk/ pagesnew/ GPat .sht ml
ht t p: / / www.csie.nt u.edu.t w/ ~ cj lin/
173
6 me par t i e: val i dat i on
VI -1 Qualit dun score
VI -2 Qualit dune rgle de classement
174
VI -1 Qual i t dun sc or e
Quil soit obt enu par Fisher, logist ique ou
aut re (une probabilit est un score)
Comparaison des dist ribut ions du score sur
les deux groupes
densit s
fonct ions de rpart it ion
175
Fonc t i ons de r par t i t i on
176
Cour be ROC
177
Cour be ROC: i nt er pr t at i on
Groupe dt ect er G
1
: scores levs
Sensibilit 1-= P(S> s/ G
1
): % de vrais posit ifs
Spcificit 1-= P(S< s/ G
2
) : % de vrais ngat ifs
178
Cour be ROC: i nt er pr t at i on (2)
Evolut ion de 1- puissance du t est en fonct ion
de , risque de premire espce lorsque le
seuil varie
Proport ion de vrais posit ifs en fonct ion de la
proport ion de faux posit ifs
179
Un sit e: ht t p: / / www.anaest het ist .com/ mnm/ st at s/ roc/
180
Sur f ac e sous l a c our be ROC
Surface t horique sous la courbe ROC:
P(X
1
> X
2
) si on t ire au hasard et
indpendemment une observat ion de G
1
et
une observat ion de G
2
Est imat ion non-paramt rique de la surface:
Proport ion de paires concordant es
(1 ( )) ( )
s
s
AUC s d s
=
=+
=

1 2
c
n
c
n n
=
181
mesur es de c onc or danc e
Coefficient s d associat ion ent re les probabilit s
calcules et les rponses observes.
Paires formes dune obs o Y= 1 et dune o Y= 0 .
Nombre de paires t = n
1
n
2
n= n
1
+ n
2
Si lobservat ion t elle que Y = 1 a une probabilit
est ime que Y = 1, plus grande que celle de
lobservat ion o Y = 0 la paire est concordant e.
nc = nombre de paires concordant es; nd = nombre
de paires discordant es; t - nc - nd = nombre dex-
aequo
182
Cour be ROC: pr opr i t s
Courbe ROC et surface sont des mesures
int rinsques de sparabilit , invariant es pour
t out e t ransformat ion monot one croissant e du
score
La surface est lie aux st at ist iques U de Mann-
Whit ney et W de Wilcoxon n
c
= U
U+ W= n
1
n
2
+ 0.5n
1
(n
1
+ 1)
AUC= U/ n
1
n
2
183
I nf ar c t us: c ompar ai son
Fi sher et l ogi st i que
Courbe ROC
1 - Spcificit
1.00 .75 .50 .25 0.00
S
e
n
s
i
t
i
v
i
t

1.00
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
184
Aut r es mesur es
D de Somers = (nc - nd) / t
Gamma = (nc - nd) / (nc + nd)
Tau-a = 2 (nc - nd) / n(n-1)
I ndi ce de Gi ni
Double de la surface ent re la courbe ROC et la diagonale
G= 2AUC-1
En labsence dex-aequo: G ident ique au D de Somers
La capacit prdict ive du modle est daut ant
meilleure que ces indices sont proches de 1.
185
Cour be de l i f t
% de la cible
186
Sur f ac e sous l a c our be l i f t
Pourcent age dindividus ayant un score> s
Surface
1 1
(1 ) (1 ) p p +
{ }
1 1
1 1
1
1
(1 ) (1 ) (1 )
(1 ) (1 ) (1 ) (1 )
(1 )
2
L d p p
p d p d
p
p AUC


= + =

+

= +


187
Coef f i c i ent Ki (Kx en)
Ki= (surface ent re lift
est im et alat oire) /
(surface ent re lift idal
et alat oire)
Ki= 2(surface ROC)-1
1 1
1
1
1
2(1 ) 1
2
2 1
1
1
2
L
p p AUC
Ki AUC
p
p

+
= = =


188
VI -2 Qual i t dune r gl e de
c l assement
Tableau de classement :
On classe des observat ions dont le groupe est connu :
Pourcent age de bien classs :
Taux derreur de classement :
n n
n
11 22
+
n n
n
12 21
+
groupe prdit
groupe n n
rel n n
1 2
1
2
11 12
21 22
189
Sur quel c hant i l l on f ai r e c e
t abl eau ?
chant illon t est dindividus supplment aires.
Si on reclasse lchant illon ayant servi const ruire la rgle
(est imat ion des coefficient s) : mt hode de resubst it ut ion
BI AI S
surest imat ion du pourcent age de bien classs.
Solut ions pour des chant illons de pet it e t aille :
Validat ion croise
n discriminat ions avec un chant illon t est dune unit : % de
bien classs sans biais (mais variance souvent fort e)
bien class
2 n - 1 n
mal class
1
190
Boot st r ap
B analyses discriminant es do dist ribut ions empiriques des
coefficient s et du % de bien classs.
chant illon B Rplicat ions par t irage avec
remise de n parmi n
191
Sept i me par t i e: du c hoi x de
modl es l a t hor i e de
l appr ent i ssage st at i st i que
VI I .1 Slect ion de variables
VI I .2 Choix de modles par vraisemblance
pnalise
VI I .3 Lapprent issage selon Vapnik
192
VI I .1 Sl ec t i on de var i abl es
Rdui r e l e nombr e de pr di c t eur s
Pourquoi ?
conomie
Pert inence
St abilit
Comment ?
Recherche exhaust ive 2
p
-1 sous-ensembles
Mt hodes pas pas ascendant es, descendant es
193
Cr i t r es
Le % de bien classs nest pas ut ilis dans les
logiciels classiques (SAS, SPSS): t rop de calculs.
Algorit hmes usuels en analyse discriminant e:
Crit re de Wilks :
On recherche minimiser : quivaut maximiser D pour k= 2
Suppose implicit ement la normalit
Mt hodes pas pas : non opt imales.
Pour k= 2 recherche exhaust ive par lalgorit hme de Furnival et
Wilson.
= W V
194
Test s de var i abl es en AD
Test dapport dune variable : Sous lhypot hse de non
apport :
Test de non discriminat ion : (analyse de variance
mult idimensionnelle)
k-1 ; n-k-p
1
1 ~F
1
p
p
n k p
k
+







( )
1-
3 F 2p ; n-p-2
2
k>3 approximations
p
k
n p
pour

= =

195
Sl ec t i on de var i abl es en
r gr essi on l ogi st i que
Mt hode ascendant e :
Selon le score dans la proc logist ic de SAS
Mt hode descendant e:
Selon la st at ist ique de Wald dans la proc logist ic de SAS
196
VI I .2 Choi x de modl es par
vr ai sembl anc e pnal i se
Comparer des modles ayant des nombres de
paramt res diffrent s: K nombre de paramt res
est imer.
Crit re dAkake :
AI C = -2 ln(L) + 2K
Crit re de Schwart z :
BI C = -2 ln(L) + K ln(n)
On prfrera le modle pour lequel ces crit res ont la
valeur la plus faible.
197
AI C et BI C ne sont semblables quen
apparence
Thor i es di f f r ent es
AI C : approximat ion de la divergence de Kullback-
Leibler ent re la vraie dist ribut ion f et le meilleur
choix dans une famille paramt re
Asympt ot iquement :
( )
( ; ) ( ) ln (ln( ( )) (ln( ( ))
( )
f f
f t
I f g f t dt E f t E g t
g t
= =


(ln( ( ; )) ln( ( ))
f
E E g t L k


198
BI C : choix bayesien de modles
m modles M
i
paramt rs par
i
de probabilit s a priori P(M
i
) gales.
Dist ribut ion a priori de
i
pour chaque modle P(
i
/ M
i
).
Dist ribut ion a post eriori du modle sachant les donnes ou vraisemblance
int gre P(x/ M
i
)
Choix du modle le plus probable a post eriori revient maximiser

ln( ( / ) ln( ( / , ) ln( )


2
i i i
k
P M P M n x x
0.5
0.5
1
( / )
i
j
BIC
i
m
BIC
j
e
P M
e

=
=

x
199
Compar ai son AI C BI C
Si n t end vers linfini la probabilit que le BI C choisisse le
vrai modle t end vers 1, ce qui est faux pour lAI C.
AI C va choisir le modle qui maximisera la vraisemblance de
fut ures donnes et ralisera le meilleur compromis biais-
variance
LAI C est un crit re prdict if t andis que le BI C est un crit re
explicat if.
Pour n fini: rsult at s cont radict oires. BI C ne choisit pas
t ouj ours le vrai modle: il a t endance choisir des modles
t rop simples en raison de sa plus fort e pnalisat ion
200
AI C BI C r al i st es?
Vraisemblance pas t ouj ours calculable.
Nombre de paramt res non plus: ridge, PLS et c.
Vrai modle?
t ous les modles sont faux ; cert ains sont ut iles G.Box
Vapni k : c hoi si r sel on l a VC
di mensi on
201
VI I .3 : La t hor i e de
l appr ent i ssage st at i st i que
Une int roduct ion aux t hories de V.Vapnik
(rdige en collaborat ion avec Michel Bera, Kxen)
Un mat hmat icien russe arriv aux USA en 92, qui t ravaille
depuis chez NEC aprs les Bell (auj ourdhui AT&T) Labs.
Premiers papiers en russe ds 1972.
Premier livre chez Springer Verlag en 1982
US Medal en sciences en 1992.
Un t roisime livre ( 800 pages ) chez J. Wiley,en 1998
202
Norbert Wiener 1948
Frank Rosenblat t 1962
Vladimir Vapnik 1982
Image courtesy of the Research Laboratory of Electronics at MIT.
203
Le pr obl me de l a bot e noi r e et
l appr ent i ssage super vi s
Et ant donne une ent re x, un syst me non
dt erminist e renvoie une variable y = f(x)+ e. On
dispose de n paires (x
i
,y
i
) et on cherche une fonct ion
qui approxime la fonct ion inconnue f.
Deux concept ions:
Une bonne approximat ion est une fonct ion proche de f
Une bonne approximat ion est une fonct ion qui donne
un t aux derreur voisin de celui de la bot e noire
204
Ri sque dappr ent i ssage
Apprent issage supervis
Y rponse prdire, X prdict eurs
Y numrique rgression ; binaire (-1; + 1) discriminat ion
Un modle calcule un prdict eur
o:
f classe de fonct ion
w est un paramt re qui dfinit le modle, est im sur
lensemble dapprent issage
) , (

w X f y =
205
Fonct ion de pert e L(y;f(x,w))
Rgression L(y;f(x,w))=(y-f(x))
2
Discrimination : taux (ou cot) derreur de classement
y et valeurs dans {-1 ;+1}
Risque (erreur de gnralisat ion sur de
nouvelles donnes z = (X, y) )
( ) ( , ) ( ) R E L L z w dP z = =

( )
2 1 1

( ; )
2 4
L y y y y y y = =

y
206
Obj ect if impossible: minimiser sur w le Risque
P(z) probabilit inconnue
On dispose seulement de n cas
dapprent issage (z
1
, .. , z
n
) t irs suivant la loi
P(z), au lieu de minimiser R, on minimise le
Risque Empirique :
1
1
( ; ( ; ))
n
emp i i
i
R L y f
n
=
=

x w
207
Problme cent ral en t horie de
lapprent issage:
Quelle est la relat ion ent re le Risque R et le
risque empirique R
emp
?
Quelle est la capacit de gnralisat ion de
ce genre de modle?
208
Le di l emme bi ai s-var i anc e
Modle y= f(x )+ , f est im sur donnes
dapprent issage
Erreur de prdict ion
Doublement alat oire
Erreur quadrat ique moyenne de prdict ion
(risque R)
0 0 0 0

( ) ( ) y y f x f x = +
( )
( ) ( )
( )
( )
2
2
2
2 2
0 0 0 0 0 0 0

( ) ( ) ( ) ( ) ( ) E y y E f x f x E f x f x V f x = + = + +
biais var iance
209
premier t erme: ala irrduct ible
deuxime t erme: carr du biais du modle
t roisime t erme: variance de la prdict ion
Plus un modle sera complexe plus le biais sera faible,
mais au dt riment de la variance.
Mais comment mesurer la complexit ?
( )
( ) ( )
( )
( )
2
2
2
2 2
0 0 0 0 0 0 0

( ) ( ) ( ) ( ) ( ) E y y E f x f x E f x f x V f x = + = + +
210
Robust esse
Modle robust e: erreurs en apprent issage et
en gnralisat ion du mme ordre de grandeur
211
Modele robust e bon aj ust ement
Compromis
x
Y
x
Y
x
Y
212
Consi st enc e
Un processus dapprent issage est consist ent si
lerreur sur lensemble dapprent issage
converge, lorsque la t aille de cet ensemble
augment e, vers lerreur en gnralisat ion.
213
%erreur
Taille ens. dapprentissage
Erreur en gnralisation
Erreur dapprentissage
Appr ent i ssage c onsi st ent
214
Taille ens. dapprentissage
%erreur
Erreur en
gnralisa
tion
Erreur dapprentissage
Appr ent i ssage non c onsi st ent
215
Les quat r e pi l i er s de l a
t hor i e de l appr ent i ssage
1 Consist ence (garant it la gnralisat ion)
Sous quelles condit ions un modle peut -il gnraliser?
2 Vit esse de convergence en fonct ion du nombre
dexemples (mesure de la gnralisat ion)
Comment samliore la gnralisat ion lorsque le nombre
dexemples augment e ?
216
Quat r e pi l i er s de l a t hor i e
de l appr ent i ssage
3 Cont rle de la capacit de gnralisat ion
Comment cont rler efficacement la gnralisat ion part ir
de linformat ion cont enue dans un ensemble
dapprent issage de t aille finie ?
4 Const ruire des algorit hmes dapprent issage
Exist e-t -il une st rat gie pour const ruire des algorit hmes
qui garant issent , mesurent et cont rlent la capacit de
gnralisat ion de modles dapprent issage ?
217
La VC di mensi on
Dimension de Vapnik-Cervonenkis: une mesure du
pouvoir sparat eur (complexit ) dune famille de
fonct ions
VC dimension : un nombre ent ier at t ach une
famille F de fonct ions
Chaque f de F cest --dire, pour un w donn
peut -t re ut ilis pour de la classificat ion :
f (X,w) >= 0 : X class en 1
f (X,w) < 0 : X class en -1
( , ) :
p
f X w R R
218
VC di mensi on sui t e
Pour un chant illon de n point s (x
1
, .. , x
n
) de
R
p
Il exist e 2
n
manires diffrent es de
sparer cet chant illon en deux sous-
chant illons
Un ensemble F de fonct ions f(X,w) hache
(shat t ers) lchant illon si les 2
n
sparat ions
peuvent t re fait es par des f(X,w) diffrent es
de la famille F
219
Aucune ligne
droite ne
peut sparer
les points
noirs des
points roses
Ex empl e
En 2-D, les fonct ions linaires (droit es)
peuvent hacher 3 point s, mais pas 4
220
Un ensembl e de f onc t i ons de
R
p
-> R a l a di mensi on h si :
I l exist e un j eu de h point s de R
p
qui peut
t re hach , quel que soit lt iquet age des
point s
Aucun ensemble de h+1 point s ne peut t re
hach par cet ensemble de fonct ions.
221
Quel ques ex empl es
La VC dimension de lensemble des
hyperplans de R
p
est p+1
Hyper-rect angles de R
p
parallles aux axes
h= 2p
(V.Cherkassky, F.Mulier, 1998)
Sphres de R
p
h= p+ 1
222
Mai s l es VC di mensi ons ne sont PAS
gal es au nombr e de par amt r es l i br es
La VC dimension de lensemble de fonct ions
f(x,w) = sign (sin (w.x) ),
c < x < 1, c>0,
avec un paramt re libre w est infinie.
Hast ie et al. 2001
223
Deux c as i mpor t ant s:
a) r gr essi on r i dge
La VC dimension de lensemble des
indicat rices linaires
sat isfaisant la condit ion :
dpend de C et peut prendre t out e valeur de
0 p+1.
( )
( )
1
( , ) 1
p
i i
i
f X sign w x
X R
=
= +


w
2
2
1
1 p
i
i
W w
C
=
=

2
2
min ; 1
R
h ent p
C


+




224
b) Lhyper pl an de mar ge max i mal e
Mme rsult at :
2
2
min ; 1
R
h ent p
C


+




225
Thor me de Vapni k :
Q : Quelles sont les condit ions ncessaires et
suffisant es pour assurer la consist ence ?
R : Le processus dapprent issage est consist ent si et
seulement si la famille de modles a une VC
dimension finie h
La VC dimension finie ne garant it pas seulement la
gnralisat ion, mais cest LA SEULE MANI ERE qui
permet la gnralisat ion de se produire.
226
Vi t esse de c onver genc e
Taille de lens. dapprentissage: n
Intervalle
Erreur en gnralisation
Erreur dapprentissage
% erreur
227
Vi t esse de c onver genc e (2)
Q : Quelle est la diffrence ent re les erreurs
dapprent issage et de t est pour une t aille
donne de lensemble dapprent issage ?
R : La diffrence ent re les erreurs
dapprent issage et de t est dpend du rapport
ent re la VC dimension, h, et la t aille de
lensemble dapprent issage, n.
228
I ngal i t de Vapni k
Avec la probabilit 1- :
ne fait pas int ervenir p mais la VC dimension h
Ne fait pas int ervenir la dist ribut ion de probabilit P
( )
( )
emp
ln 2 1 ln ( 4) h n h
R R
n
+
< +
229
n f ix
230
De Gui l l aume dOc k ham
Vapni k
wikipedia
Guillaume dOccam (1285 - 3 avril 1349), dit le doct eur
invincible franciscain philosophe logicien et t hologien
scolast ique.
Et udes Oxford, puis Paris. Enseigne quelques annes
Oxford.
Accus d'hrsie, convoqu pour sexpliquer Avignon,
excommuni , se rfugie Munich, la cour de Louis de
Bavire, lui-mme excommuni. Meurt de l'pidmie de
pest e noire.
A inspir le personnage du moine franciscain Guillaume de
Baskerville dans le Nom de la rose d'Umbert o Eco.
Premier j our, vpres : il ne faut pas mult iplier les
explicat ions et les causes sans qu'on en ait une st rict e
ncessit .
231
Le r asoi r dOc k ham ou pr i nc i pe de
par c i moni e
Principe de raisonnement at t ribu Ockham : Les mult iples ne
doivent pas t re ut iliss sans ncessit (pluralit as non est
ponenda sine necessit at e).
Rasoi r d' Ockham et sci ence moder ne
Le rasoir d'Ockham n'est malheureusement pas un out il t rs incisif, car il ne donne pas de
principe oprat oire clair pour dist inguer ent re les hypot hses en fonct ion de leur
complexit : ce n'est que dans le cas o deux hypot hses ont la mme vraisemblance
qu'on favorisera l'hypot hse la plus simple (ou parcimonieuse). I l s'agit en fait d'une
applicat ion direct e du t horme de Bayes o l'hypot hse la plus simple a reu la
probabilit a priori la plus fort e. Des avat ars modernes du rasoir sont les mesures
d'informat ion du t ype AI C, BI C o des mesures de pnalit de la complexit sont
int roduit es dans la log-vraisemblance.
wikipedia
232
De Gui l l aume dOc k ham
Vapni k
Si deux familles de modles expliquent les donnes
avec une qualit gale, alors la famille qui a la plus
faible VC dimension doit t re prfre.
1re dcouverte: La VC (Vapnik-Chervonenkis) dimension mesure la
complexit dune famille de modles.
233
De Gui l l aume dOc k ham Vapni k
Si deux modles expliquent les donnes avec une
qualit gale, alors celui qui provient dune
famille plus faible VC dimension a une meilleure
performance en gnralisat ion.
2me dcouverte: La VC dimension peut tre relie des rsultats de
gnralisation (rsultats sur de nouvelles donnes).
234
De Gui l l aume dOc k ham Vapni k
Pour const ruire le meilleur modle part ir de donnes, il
faut t ent er dopt imiser la fois sa performance sur
lensemble dapprent issage,
et sa performance de gnralisat ion t ire de la VC
dimension : pour ce faire, il faut parcourir une suit e de
familles dapplicat ions pour y const ruire ce modle
3me dcouverte: Au lieu dobserver des diffrences entre des
modles, mieux vaut les contrler..
235
Cont r l e de l a Capac i t de
Gnr al i sat i on
Risque = Risque dApprent issage +
I nt ervalle de Confiance
Minimiser la seule erreur dapprent issage ne
donnera pas une esprance derreur faible
(une bonne gnralisat ion)
minimiser la somme de lerreur
dapprent issage et de lint ervalle de
confiance.
( )
( )
emp
ln 2 1 ln ( 4) h n h
R R
n
+
< +
236
Pr i nc i pe de mi ni mi sat i on st r uc t ur e du
r i sque (SRM) (1)
lorsque n/h est faible (h t rop grand), le
deuxime t erme est grand
Lide gnrale du SRM est de minimiser la
somme des deux t ermes la droit e de
linquat ion.
( ) ( )
L
q h L h
w E w R
ln 1 2 ln
) ( ) (
+
+ <
( )
( )
emp
ln 2 1 ln( / 4) h n h
R R
n
+
< +
237
Pr i nc i pe de mi ni mi sat i on st r uc t ur e du
r i sque (SRM)(2)
Considrons une st ruct ure S
1
S
2
.. S
L
sur
lensemble des fonct ions vrifiant la proprit
h
1
< h
2
< .. < h
L
Pour chaque lment S
i
de la st ruct ure,
lingalit est valide
( )
( )
emp
ln 2 1 ln( / 4)
i i
h n h
R R
n
+
< +
SRM : Trouver i tel que la somme devienne minimale,
238
Appl i c at i on du pr i nc i pe SRM
La st ruct ure S
i
(familles de modles) peut t re
cont rle par :
Archit ect ure de rseaux de neurones
Degr dun polynme
Mt hodologie dapprent issage
Cont rle des poids dans un rseau de neurones, ...
239
Avec /sans l appr oc he SRM de Vapni k
Sans le SRM:
Hypot hses sur la dist ribut ion st at ist ique (inconnue) des donnes
Un grand nombre de dimensions signifie un modle grand nombre
de paramt res, ce qui pose des problmes de gnralisat ion
Modliser revient chercher le meilleur aj ust ement
Avec le SRM:
On t udie la famille de modles, cont rlant sa VC dimension h
Le nombre de paramt res peut t re t rs grand, car on cont rle par
dfinit ion la gnralisat ion
Modliser cest rechercher le meilleur compromis ent re aj ust ement et
robust esse
240
Borne suprieure t rop grande,
mai s:
Thor me (Devroye, Vapnik) :
Pour t out e dist ribut ion le SRM fournit la meilleure
solut ion possible avec probabilit 1
(universally st rongly consist ent )
241
Cont r l e de h
h doit t re fini
h/n doit t re pet it : si n augment e, on peut
augment er la complexit du modle
h dcroit avec:
Rduct ion de dimension (cf. Disqual)
La marge (SVM)
k en rgression ridge
Mais h difficile obt enir
242
Les 3 chant i l l ons:
Apprent issage: pour est imer les paramt res des
modles
Test : pour choisir le meilleur modle
Validat ion : pour est imer la performance sur des
donnes fut ures
Rchant illonner: validat ion croise, boot st rap
Modl e f i nal : avec t out es l es donnes di sponi bl es
243
244
Pr i nc i pes di nduc t i on
Ne pas chercher rsoudre un problme plus
gnral que ncessaire
Ne pas est imer une densit si on veut est imer une
fonct ion
Ne pas est imer une fonct ion si on veut seulement
est imer une valeur en un point
245
8 me par t i e : ar br es de
dc i si on
246
Les mt hodes de segment at i on
Dveloppes aut our de 1960 et t rs ut ilises en market ing,
ces mt hodes dlaisses par les st at ist iciens ont connu un
regain dint rt avec les t ravaux de Breiman & al.
(1984) qui en ont renouvel la problmat ique: elles sont
devenues un des out ils les plus populaires du dat a mi ni ng
ou f oui l l e de donnes en raison de la lisibilit des
rsult at s. On peut les ut iliser pour prdire une variable Y
quant it at ive (arbres de rgression) ou qualit at ive (arbres de
dcision, de classificat ion, de segment at ion) laide de
prdict eurs quant it at ifs ou qualit at ifs. Le t erme de
par t i t i onnement r cur si f est parfois ut ilis
247
Les mt hodes de segment at ion sont des mt hodes but
explicat if qui rsolvent les problmes de discriminat ion et de
rgression en divisant successivement l chant illon en sous-
groupes.
I l sagit de slect ionner parmi les variables explicat ives celle
qui est la plus lie la variable expliquer. Cet t e variable
fournit une premire division de l chant illon en plusieurs
sous-ensembles appels segment s (on prsent era plus t ard
des crit res permet t ant de diviser un segment ).
Puis on rit re cet t e procdure lint rieur de chaque
segment en recherchant la deuxime meilleure variable, et
ainsi de suit e
I l sagit donc dune cl assi f i cat i on descendant e but
prdict if oprant par slect ion de variables : chaque classe
doit t re la plus homogne possible vis vis de Y
248
La segment at ion est donc en concurrence avec les
mt hodes explicat ives paramt riques (rgressions linaires,
logist ique, analyse discriminant e ).
A la diffrence de ces mt hodes, les variables sont
prsent es et ut ilises squent iellement et non
simult anment .
Les mt hodes de segment at ion sont des t echniques non
paramt riques, t rs peu cont raint es par la nat ure des
donnes.
Les sort ies se prsent ent sous forme d arbres de dcision
qui fournissent des rgles d affect at ion lisibles et
facilement int erprt ables.
249
Un l ogi c i el gr at ui t :
SI PI NA ht t p: / / eric.univ-lyon2.fr
250
Ar br e de dc i si on
On reprsent e ainsi les divisions successives de l chant illon (on
parcours l arbre en le descendant ).
A chaque t ape, on divise un segment en plusieurs segment s plus
purs ou de variances plus faibles (i.e. plus homognes).
T
t
1
t
2
t
3
t
4
t
5
t
6
t
7
t
8
: Segments intermdiaires
: Segments terminaux
t
8
t
1
251
Ar br es bi nai r es ou non?
En prsence dun prdict eur qualit at if, on
pourrait ut iliser des arbres non binaires en
dcoupant en m sous ensembles : cet t e ide
nest en gnral pas bonne car elle conduit
des subdivisions avec t rop peu dobservat ions
et souvent non pert inent es.
Lint rt des arbres binaires est de pouvoir
regrouper les modalit s qui ne se dist inguent
pas vis vis de y.
252
Di vi si ons dun nud (ar br es bi nai r es)
Les divisions possibles dpendent de la nat ure st at ist ique de
la variable :
variable binaire B(0,1) : une division possible
variable nominale N (k modalit s) : 2
k-1
- 1 divisions possibles
variable ordinale O (k modalit s) : k-1 divisions possibles
variable quant it at ive Q (q valeurs dist inct es) : q-1 divisions possibles
Exemple : (3 variables, divisions binaires)
binaire (b1,b2) : (b1) (b2)
Ordinale (o1,o2,o3,o4) :
(o1) (o2,o3,o4)
(o1,o2) (o3,o4)
(o1,o2,o3) (o4)
nominale (n1) (n2,n3)
(n2) (n1,n3)
(n3) (n1,n2)
253
254
La mt hode CART
La mt hode CART permet de const ruire un arbre de
dcision binaire par divisions successives de
l chant illon en deux sous-ensembles.
I l n y a pas de rgle d arrt du processus de division
des segment s : l obt ent ion de l arbre complet , une
procdure d lagage permet de supprimer les
branches les moins informat ives.
Au cours de cet t e phase d lagage, la mt hode
slect ionne un sous arbre opt imal en se fondant sur
un crit re d erreur calcul sur un chant illon t est
I l est not er que CART ut ilise le mme principe pour
analyser une variable nominale (problme de
discriminat ion) ou une variable cont inue (rgression).
255
Di sc r i mi nat i on : c r i t r e de
di vi si on
I mpuret dun nud :
Avec r s et o P(r/ t ) et P(s/ t ) sont les proport ions
d individus dans les classes c
r
et c
s
dans le segment t (i(t )
est lindice de diversit de Gini )
Segment pur : ne cont ient que des individus d une classe,
i(t ) = 0
Segment mlang : i(t ) 0 et i(t ) fonct ion croissant e du
mlange
( ) ( / ) ( / )
k k
r s
i t P r t P s t =

256
Rduc t i on di mpur et
Rduct ion de l impuret par la division s :
O les p
g
sont les proport ions d individus du nud t respect ivement dans les
segment s descendant s t
g
et t
d
(la fonct ion i(t ) t ant concave, l impuret
moyenne ne peut que dcrot re par division d un nud)
Rduct ion maximale pour chaque variable :
Rduct ion maximale pour l ensemble des p variables :
*
( , ) max{ ( , )} i s t i s t =
*
1...
* max { ( , )}
j p
i s t
=
=
257
Ent r opi e et i ndi c e de Gi ni
ent r opi e
i ndi ce de di ver si t de Gi ni
Pour deux cl asses,
i ndi ces t r s pr oches:
( )
1
ln
k
i i
i
p p
=

( )
1
1
k
i i
i
p p
=

258
Di sc r i mi nat i on : ar r t des
di vi si ons, af f ec t at i on
Nud t erminal :
sil est pur ou sil cont ient des observat ions t out es
ident iques
sil cont ient t rop peu d observat ions
Un segment t erminal est affect la classe
qui est la mieux reprsent e
259
Di sc r i mi nat i on : T.E.A.
Taux derreur de classement en apprent issage (T.E.A) associ
un segment t erminal de l arbre A :
Avec r= s et o P(r/ t ) = n
r
(t )/ n
t
est la proport ion d individus du
segment t affect s la classe c
s
et qui appart iennent la classe c
r
T.E.A associ l arbre :
Reprsent e la proport ion dindividus mal classs dans
lensemble des segment s t erminaux
1
( / ) ( / )
k
r
R s t p r t
=
=

1
( ) ( )
( ) ( / )
k
r r
t A t A k
n t n t
TEA A R s t
n n
=
= =

260
Di sc r i mi nat i on : Sl ec t i on du
mei l l eur sous-ar br e
chant illon dapprent issage :
Const ruct ion de l arbre complet A
max
, puis lagage : part ir de l arbre
complet , on dt ermine la squence opt imale de sous-arbres embot s
{ A
max
-1,A
h
, A
1
} avec 1 h < max
Le t aux derreur en apprent issage (TEA) de
Ah
vrifie :
O S
h
est l ensemble des sous-arbres de A
max
ayant h segment s t erminaux
chant illon-t est :
Choix de A* t el que lerreur de classement en t est (ETC) vrifie :
( ) min { ( )}
h
h A S
TEA A TEA A

=
*
1 max
( ) min { ( )}
h h
ETC A ETC A

=
261
Di vi si ons qui r duc t r i c es et
qui di vi sant es
En plus de la meilleure division d* (celle assurant
la plus grande rduct ion de l impuret ou de la
variance rsiduelle ) , on dfinit :
Les divisions quirduct rices : celles qui assurent
aprs d* les plus fort es rduct ion de l impuret ou
des variances rsiduelles ; elles permet t ent
d aut res choix de variables explicat ives.
Les divisions quidivisant es : fournissent les
rpart it ions les plus proches de la meilleure division
d* ; elles permet t ent de grer les donnes
manquant es.
262
Ex empl e: bons et mauvai s
c l i ent s dune banque (SPAD)
263
264
265
266
Matrice de confusion
------------------------------
PREDIT
OBSERVE BON MAUV
------------------------------
BON 163 25
MAUV 67 119
------------------------------
267
268
Ar br es de r gr essi on
Si y est numrique, mesure dhomognit
= variance de la classe
Division en deux sous-groupes: minimiser la
variance int ra-groupe ou maximiser la
variance int er-groupe.
( ) ( )
( )
2 2
inter 1 1 2 2
1
V n y y n y y
n
= +
269
La coupure opt imale pour une variable
qualit at ive nominale m modalit s doit
respect er lordre induit par la moyenne de y .
On rordonne donc les cat gories de x selon
et il ny a plus que m-1 dichot omies
examiner au lieu de 2
m-1
1.
( )
2
1 2
inter 1 2
2
n n
V y y
n
=
i
y
270
Avant ages et i nc onvni ent s
Les mt hodes de segment at ion fournissent une
alt ernat ive int ressant e aux mt hodes
paramt riques usuelles : elles ne ncessit ent pas
dhypot hse sur les donnes, et les rsult at s sont
plus simples exploit er
MAI S : elles fournissent souvent des arbres
inst ables (une division condit ionne les suivant es, et
ce fait peut t re part iculirement gnant si les
variables quirduct rices sont proches de la
variable qui a servi faire la division).
271
Nouvel l es t endanc es :
Bagging ou boot st rap averaging
B arbres part ir de B rplicat ions: fort
Procdure de vot e
Boost ing AdaBoost
Combinaison de classifieurs faibles
Poids croissant avec la prcision
Classifieur G
m
: surpondrat ion des observat ions
mal classes de G
m-1
( )
m m
m
G x

You might also like