Professional Documents
Culture Documents
q
u
e
n
c
e
(
H
z
)
temps (s)
Le sonagramme
W. Heisenberg
18
Plan
Le traitement automatique de la parole
Paramtrisation du signal acoustique
Les modles de dcision
Robustesse des systmes
Applications
Conclusion
4
19
Principe de la reconnaissance des formes
Forme
Capteur
Prtraitement Paramtrisation Dcision
Mmoire de
formes
Rponse
Apprentissage
20
Comparaison de formes par
programmation dynamique :
principe de la mthode
Ressemblance entre les formes A et B :
R. Bellman
21 22
temps
23
Dcision probabiliste : rgle de Bayes
Parole
Paramtrisation
X = x [ 1:T ]
Recherche
argmax { P(X/W) . P(W) }
W = w [1:N]
Suite de mots W la plus probable
Modles acoustiques
Modles de langage
P(X/W)
P(W)
Soit un signal vocal paramtr X. On cherche la suite de mots prononcs
la plus probable W connaissant X, soit argmax { P(W/X) }
T. Bayes
P (W/ X) = P (X / W) . P (W) / P (X)
24
Principe de la reconnaissance de la parole
Modles de
mots
Recherche de
argmax {P(X/W) . P(W)}
W = w [1:N]
Message
le plus probable
0RGqOHVGH0DUNRYFDFKpV
5pVHDX[QHXURQDX[
0RGqOHVK\EULGHV
0RGqOHV
QJUDPPHV
/H[LTXH
Modles
acoustiques
P(X/W)
Modles de
langue
P(W)
5
25
Principe du modle de Markov
cach, HMM
cest un automate probabiliste
Probabilit de transition
O
2
O
3
O
4
O
1
26
La modlisation stochastique de la parole
On suppose que la production de la parole
est un systme markovien :
A.A. Markov
27
Niveaux de modlisation (daprs Huet et al.)
28
Reconnaissance de mots isols
.
Max
29
Programmation dynamique et modle de Markov
.
o
1
o
2
o
3
o
4
o
5
o
6
o
7
o
8
o
9
o
10
o
11
) ( * * ) 1 (
) ( * * ) (
max ) (
) 1 ( 1
1
t i i i t
t i ii t
t
o b a i
o b a i
i
Entre vocale :
temps
30
Algorithme de Viterbi en bref
Initialisation
Rcursion
Terminaison
) ( * ) (
1 1
o b i
i i
=
[ ] ) ( * * ) ( max ) (
1
1
t j ij t
N i
t
o b a i j
=
[ ]
P i
i N
T
*
max ( ) =
1
6
31
Algorithme pour une suite de mots enchans
. .
temps
32
Graphe final et solution
.
.
.
Max
temps
33
Solution obtenue par retour en arrire
.
.
.
.
temps
34
Alignement temporel par HMM (D. Fohr)
temps
35
Alignement temporel par HMM (D. Fohr)
36
Probabilit de la squence de mots
Hypothse :
- Chaque mot peut tre prdit partir des N-1 mots
prcdents (chane de Markov dordre N-1)
- Modles les plus courants : uni, bi et tri-grammes
... mais aussi quadri, quinqua-grammes, etc.!
Modles de langage : modles N-grammes
7
37
Modles N-grammes : estimation des
probabilits
- A partir de comptages des N-grammes dans un corpus de textes.
- Exemple du modle trigrammes :
Soit le nombre doccurrences de
et de mme pour
On alors calculer :
38
Problme de la limitation des corpus dapprentissage (loi de
Zipf) : nombreux N-grammes absents des corpus
Modles de langage : modles N-grammes
39
Loi de Zipf
40
Problme de la limitation des corpus dapprentissage (loi de
Zipf) : nombreux N-grammes absents des corpus
Amliorations du modle
Modles de langage : modles N-grammes
41
Amliorations du modle
Lissage (Smoothing) (Jelinek-Mercer, 1980) (Katz, 1987) (Kneiser-
Ney, 1994) : liminer les probabilits de certains mots trs rares.
Interpolation :
Utiliser des N-grammes dordre suprieur
Clustering : regroupement de mots semblables (e.g., jours de la semaine)
Modle cache (Kuhn-De Mori, 1990) : un mot apparu dans une phrase peut
rapparatre
Modle de mlange de phrases (Iyer-Ostendorf, 1999) :
utiliser plusieurs modles de phrases au lieu dun seul
42
Influence de lordre du N-gramme
(daprs Goodman)
8
43
Amliorations du modle
Lissage (Smoothing) (Jelinek-Mercer, 1980) (Katz, 1987) (Kneiser-
Ney, 1994) : liminer les probabilits de certains mots trs rares.
Interpolation :
Utiliser des N-grammes dordre suprieur
Clustering : regroupement de mots semblables (e.g., jours de la semaine)
Modle cache (Kuhn-De Mori, 1990) : un mot apparu dans une phrase peut
rapparatre
Modle de mlange de phrases (Iyer-Ostendorf, 1999) :
utiliser plusieurs modles de phrases au lieu dun seul
44
Mlange de phrases
45
Modles de langage
Nombreux autres modles
Modles n-classes (syntaxiques ou smantiques)
modles n-grammes avec caches
modles multi-grammes (suites de mots)
modles hybrides (combinant plusieurs modles)
Modles stochastiques et linguistiques
Apprentissage : ncessit de trs gros corpus
46
Comprhension automatique de la parole
Comprhension
Reprsentations smantiques
Approche
linguistique
Approche
connexionniste
Approche
statistique
Modles de
Markov cachs
Grammaires
de cas
Rseaux
smantiques
Rseaux
de Kohonen
Rseaux
rcurrents
Cas smantiques Concepts et liens Neurones Vecteurs Concepts
47
Lapproche statistique pour la
comprhension de la parole
Reconnaissance Comprhension
Requte en
langage naturel
Rsultat Signal
Interprtation
par un SGBD
Conversion de
concepts
Traduction
smantique
Concepts
appropris
Requte
SQL
Requte en
langage naturel
Rsultat
48
5HTXrWH
,QWURGXFWLRQ
2EMHW
&RUSV
7DEOH
'HPDQGH %HVRLQ &RQGLWLRQV
VHOHFW
REMHFW IURP WDEOH ZKHUH FRQGLWLRQV
Construction des requtes gnriques
2UGUH $FWLRQ (QYRL ,QIRUPDWLRQ 9DOHXU 1RP (YROXWLRQ 3ROLWHVVH 6RXKDLW &RXUV )DLUH
9
49
Traduction smantique :
phrase concepts appropris
Apprentissage supervis
Dtermination manuelle des concepts relatifs lapplication
Exemple de concepts :
Voyage, hbergement, bourse, etc.
Etiquetage des corpus dapprentissage et de test
Problmes de lapprentissage supervis
Subjectivit et risque derreurs lors de ltiquetage manuel
Etiquetage de trs grandes quantits de donnes
Lapproche statistique pour la
comprhension de la parole
50
Exemples de concepts
Comparaison des concepts
Tche trs dlicate et trs subjective
Trouver un formalisme de comparaison objectif et efficace
Utilisation de la mesure defficacit
Comparaison de chaque ensemble de concepts un ensemble de rfrence
tabli manuellement
Lefficacit relative un concept de rfrence est la valeur maximale des
efficacits obtenues avec ce concept
Lefficacit globale est la somme pondre des efficacits obtenues avec
chaque concept de rfrence
51
Approche la plus utilise en comprhension de la parole
Limite lintervention humaine pour llaboration des rgles
dinfrence
Formalisation mathmatique : modles de Markov cachs
n=1 m=2
Lapproche statistique pour la
comprhension de la parole
52
53 54
Exemple darbre danalyse smantique
(d aprs S. Young)
10
55
Analyse smantique latente
(Bellegarda, 1998)
Principe (cf. RI) : trouver les relations smantiques entre les mots
d'un document
-> matrice d'occurrence [w
ij
] : occurrences du mot w
i
dans le
document d
j
56
Principe de la reconnaissance des formes
Forme
Capteur
Prtraitement Paramtrisation Dcision
Mmoire de
formes
Rponse
Apprentissage
57
Apprentissage
Importance majeure en RAP statistique
Double problme:
Apprentissage des modles acoustiques
Apprentissage des modles de langage
Ncessit dnormes quantits de donnes
tiquetes
=> deux solutions possibles :
Apprentissage lgrement supervis (si lon
dispose de donnes acoustiques avec transcription)
Apprentissage non supervis
58
Apprentissage (daprs Gauvain et Lamel)
Reconnaissance
Apprentissage
59
(daprs Gales et al., Cambridge Univ.)
Influence du volume de donnes dapprentissage
60
Plan
Le traitement automatique de la parole
Paramtrisation du signal acoustique
Les modles de dcision
Robustesse des systmes
Applications
Conclusion
11
61
Robustesse des systmes
Problme : discordances entre les conditions dapprentissage et
dutilisation dun systme
62
Robustesse et taux de reconnaissance
29.1%
Locuteurs non natifs
4.7 % Locuteurs natifs (USA)
Erreur Wall Street Journal 5000
34.9% Locuteurs non natifs
3.6 % Locuteurs natifs (USA)
Erreur Resource Management Espace acoustique
d'apprentissage
Espace acoustique
d'utilisation
La disparit entre les deux espaces fait
chuter les performances
63
Robustesse des systmes
Problme : discordances entre les conditions dapprentissage et
dutilisation dun systme
Variabilit de la parole due :
au locuteur (accent, style, motion, stress, essoufflement, fatigue, effet
Lombard, etc.)
64
Effet Lombard
temps
frquence
temps
frquence
?
E. Lombard, 1916
65
Le plan des voyelles
F1
F2
66
Robustesse des systmes
Problme : discordances entre les conditions dapprentissage et
dutilisation dun systme
Variabilit de la parole due :
au locuteur (accent, style, motion, stress, essoufflement, fatigue, effet
Lombard, etc.)
la prise de son (microphone, bruit ambiant, position, etc.)
au canal de transmission (distorsion, cho, bruit lectronique)
12
67
temps
Enregistrement bord dune voiture : larrt
68
temps
Enregistrement bord dune voiture : 90 km/h
69
Robustesse des systmes
Problme : discordances entre les conditions dapprentissage et
dutilisation dun systme
Variabilit de la parole due :
au locuteur (accent, style, motion, stress, essoufflement, fatigue, effet
Lombard, etc.)
la prise de son (microphone, bruit ambiant, position, etc.)
au canal de transmission (distorsion, cho, bruit lectronique)
au contexte linguistique (coarticulation, assimilation, etc.)
Rsultat :
interactions complexes et effets cumuls!
ncessit de mthodes robustes tous les niveaux
70
Augmenter la robustesse
Trois solutions, non exclusives :
1. Prtraitement et dbruitage du signal
2. Paramtrisation robuste
3. Adaptation des modles acoustiques
71
Adaptation des modles
Avant Adaptation
Aprs Adaptation
Adaptation
72
Transformations linaires
Principe : on obtient les paramtres du modle adapt
en appliquant une transformation linaire aux
paramtres du modle initial
Les transformations sont obtenues par maximisation de
la vraisemblance des donnes dadaptation
Un exemple simple : MLLR (Rgression linaire par
maximum de vraisemblance)
13
73
MLLR : Exemple
i
i
a
u
u
i u
a
Paramtre 1
Paramtre 2
74
75
Plan
Le traitement automatique de la parole
Paramtrisation du signal acoustique
Les modles de dcision
Robustesse des systmes
Applications
Conclusion
76
Contexte gnral :
- volution technologique
- Intgration des matriels et logiciels de TAP
dans les postes de travail
- Convergence informatique, tlphone, tlvision
Grands domaines :
- Machines dicter
- Commandes dappareils
- Handicaps
- Tlcommunications : tlmatique vocale
Domaines dapplication
77
Tlmatique vocale
Les gnrations de systmes de tlmatique vocale :
- premire gnration (dbut vers 1990)
. Amrique du Nord : ATT (Call Collect), Bell Northern (AABS)
. Japon : banques (ANSER)
. France : CNET (Mairievox), MACIF
78
14
79
Tlmatique vocale
Les gnrations de systmes de tlmatique vocale :
- premire gnration (dbut vers 1990)
. Amrique du Nord : ATT (Call Collect), Bell Northern (AABS)
. Japon : banques (ANSER)
. France : CNET (Mairievox), MACIF
- deuxime gnration (dbut vers 1994)
. automatisation partielle des services de renseignements (Bell Canada, ATT)
. annuaires vocaux d'entreprises (CSELT, CNET)
. rpertoires et composeurs vocaux personnaliss (NYNEX, Sprint)
. tlphones mobiles
- gnrations futures : intgration de services, traduction parole-parole, dialogue
oral, identification de la langue
80
SNCF: systme RECITAL
81
Machines dicter
Produits commercialiss dans diffrentes langues :
allemand, anglais, espagnol, franais, italien, mandarin, ...
Applications : courrier commercial, comptes rendus mdicaux,
textes juridiques
Bonnes performances, surtout aprs apprentissage...
Exemples :
- IBM ViaVoice
- Nuance Dragon Naturally Speaking
- Philips Speech Magic
82
Transcription/Indexation de documents audio
Pourquoi ?
Explosion de la quantit de documents sonores
Exploitation manuelle impossible
Pour quelles applications ?
consultation daudiothques
filtrage et sous-titrage des missions de radio et de tlvision
commerce de la musique sur le Web
accs aux contenus audiovisuels
post production de film,
Comment ?
extraction dinformation reprsentative du contenu
organisation et structuration de linformation
83
Principe de la transcription automatique
84
Difficults de la TA
Varit des styles de parole : parole lue, spontane,
conversationnelle,
Prsence de bruit de fond ou de musique,
Grande varit de locuteurs : journalistes, reporters
dans des endroits varis, vedettes, hommmes
politiques, homme de la rue, locuteurs non-natifs, etc.,
Qualit du signal : large bande ou bande troite, studio
ou transmission par tlphone (rseau commut ou
tlphone cellulaire).
15
85
Close-talk microphone
Distant microphone 86
Segmentation des donnes acoustiques
But : partitionner le signal de parole en segments homognes
Actions :
- Segmenter le flux audio selon les changements
acoustiques : locuteurs, canaux ou microphones
diffrents, conditions denregistrement, etc.
- Supprimer jingles et publicits
- Sparer parole large bande et bande troite
- liminer les portions de musique
- Dtecter le sexe du locuteur
87
Mesures de confiance
Dfinition
Estimation de la validit dun lment reconnu
(phrase, syntagme, mot, phone)
Pour la transcription:
Optimale au niveau du mot
Ncessit de mesures temps rel , calcules au
vol lorsque le locuteur parle
88
Architectures de systmes de transcription
Principe: reconnaissance multi-passes
Fondamentalement, deux sries de passes:
1 : construction dun treillis de mots avec des modles
simples (phones hors contexte, ML bigrammes)
2 : rescoring et affinement du treillis, adaptations, etc.,
avec des modles plus complexes (triphones, ML tri-or
quadrigrammes)
Exemples:
Cambridge University (HTK)
AMI project (EU)
89 90
The EU AMI project system
16
91 92
93
Reconnaissance et comprhension
de la parole : exemple de la SNCF
94
Plan
Le traitement automatique de la parole
Paramtrisation du signal acoustique
Les modles de dcision
Robustesse des systmes
Applications
Conclusion
95
Conclusion et perspectives
Progrs importants des recherches :
meilleure comprhension des processus
produits actuels performants (machines dicter, tlmatique, etc.)
... mais grande variabilit des taux derreur :
0,3 % (suite de chiffres)
4 % (dicte en continu, vocabulaire de 20 000 mots)
8 % (lettres peles)
10 % (transcription)
35 % (conversations tlphoniques)
Ncessit daugmenter la capacit dapprentissage et la
robustesse des systmes tous les niveaux de traitement pour
des applications de comprhension ralistes :
utilisateurs occasionnels
terminaux mains libres, ambiances bruites
systmes conversationnels, naturels
96
Merci
pour votre attention!
17
Herv Le Borgne
CEA LIST, Fontenay aux Roses
Recherche d'information dans les images
Dans un premier temps, nous prsenterons un historique et un tat de l'art de la
recherche d'information concernant les images fixes, en particulier en ce qui concerne la
"recherche d'images par le contenu".
La seconde partie prsentera plus spcifiquement des techniques de recherche d'images
au sein de pages web (values dans le cadre de la campagne ImageCLEF 2008 et 2009,
tche WikipediaMM) combinant la recherche d'information textuelle, la recherche par le
contenu et l'exploitation de ressources externes.
18
ERMITES 2009
Recherche dinformation
dans les images
Herv Le Borgne
http://elm.eeng.dcu.ie/~hlborgne/
Septembre 2009
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
2 / 82
Des collgues
Chercheurs au CEA LIST
Bertrand Delezoide
Patrick Hde
Pierre-Alain Mollic
Chercheurs (ayant t tudiants au CEA LIST)
Dbora Myoupo (PhD au GREYC)
Adrian Popescu (Post-doc ENST Bretagne)
Quils soient remercis pour leur contribution dans ce qui
va suivre.
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
3 / 82
Dans lheure et quart venir
Introduction
Motivations et contexte
Foss smantique
Historique
Proprits et statistiques des images naturelles
CBIR ( image pure )
Description des images
Apprentissage
Approches mixtes ( texte + image )
Page rank + visual rank
Content-based reranking
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
4 / 82
Contexte grand public
Facilit de production des images numriques
Facilit de publication, utilisation, change
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
5 / 82
Contexte professionnel
Des collections gigantesques qui croissent toujours:
Agences photos
Mode, mto
Scurit
Images mdicales
Architecture
Patrimoine (numris)
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
6 / 82
Contexte et motivations
Grer les informations produites, cest :
(1) Enregistrer / Conserver
(2) Traiter (formatage, amlioration du rendu)
(3) Retrouver / Rendre accessible rapidement
(4) Utiliser / Valoriser
INDEXER
Attribuer un document un indice de classification ou une liste de
descripteurs reprsentant (sous une forme codifie) le contenu
informatif du document
Nest pas une fin en soi! Dpend du but sous-jacent:
Recherche dans une collection
Navigation, rsum
Description automatique: archive, production dun nouveau doc,
production de service
19
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
7 / 82
Explorer des collection dimages
Descripteurs symboliques (Text-based search engine)
Ajout de mots-cls (annotation manuelle)
LaborieuxMais indispensable dans des certains cas!
Exhaustivit impossible
A partir des mots autour des images
Lgende, tags (balise alt), article associ
Fonctionnement de la plupart des moteurs image actuels
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
8 / 82
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
9 / 82
Explorer des collections dimages
Descripteurs numriques (Content-Based Image Retrieval)
Information provenant du contenu pixlique (niveau signal)
Index = calcul de descripteur ou signature
Globaux: forme, couleur, texture
Locaux:
Point dintrt (DoG, Harris, Laplace)
Descripteur (SIFT, SURF)
Sacs de descripteurs (bag of features)
Possibilit dinfrer des descripteurs de plus haut niveau:
Apprentissage (supervis)
Dtection dobjets, reconnaissance de scnes
Algorithmes spcifiques (e.g: visages)
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
10 / 82
CBIR et QbE
Principe gnral (Query by Example)
Indexation hors ligne calculs lourds
Recherche en ligne
Possible interaction avec lutilisateur (relevance feedback)
Bases dimages
C
O
M
P
A
R
A
I
S
O
N
Liste dimages
similaires
Clusters
Extraction de caractristiques
Cration dindex
Extraction de caractristiques
Cration dindex
Indexation
Recherche Image Requte
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
11 / 82
Foss smantique
Comparer:
lphant
Savane
Trompe
Oreille
Arbre
Terre
Ciel
Bleu
Marron
Scheresse
Texte descriptif
Cette image reprsente un paysage
de montagne. On voit un lac et
au premier plan une table en bois
avec deux bidons
20
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
13 / 82
Explorer des collections dimages: bilan
Solution : utiliser une approche mixte!
-Bas-niveau smantique:
incompltude des
descripteurs
- Nombreux verrous
technologiques
-Eloign de lutilisateur
-Objectivit (information
relative au vrai contenu)
-Indexation automatique
ou semi-automatique.
Descripteurs
bas-niveaux
-Description subjective
(relative lannotateur)
- - Ambigut
- - Intervention humaine
- Multilingue!
-Richesse des
descripteurs
-Multilingue
-Proche de lutilisateur
Descripteurs
smantiques
Inconvnients Avantages
Les images naturelles
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
15 / 82
Des images et des hommes
Distinguer les images naturelles (des autres)
Images du monde rel, celles qui sont susceptibles
davoir faonn notre cortex visuel au cours de
lvolution
NON OUI
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
16 / 82
Spectre de puissance : gnralits
Premires tudes en 1952 [Kretzmer]
But: compresser images TV
Spectre moyen de puissance
Dcroissant avec frquence
Approximativement isotrope
Moyenne sur 3500 images
Spectre en 1/f
avec ~1
Caractristique de linvariance lchelle
Accord aux donnes neurophysiologiques
[De Valois, De Valois, 1988]
A. Torralba, A. Oliva,
Network, 1+, 2003
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
17 / 82
Spectres globaux
Spectres anisotropiques
Caractrisent les catgories dimages
|Oliva et al.,1999|
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
18 / 82
Spectres globaux 2
Torralba andOliva,Statistics of Natural Image Categories.
Network:ComputationinNeuralSystems14(2003)391-412
21
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
19 / 82
Spectres locaux
Stationaire Non-stationaire
1m 10,000m
|Torralba &Oliva,2003|
Urbain
Nature
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
20 / 82
Corrlations spatiales
Histogrammes de log_contraste
Diffrentes chelles: 2, 4, 8, 16, 32
Si indpendance queues paraboliques
Thorme limite central
Redondance dinformation
D.L. Ruderman,
Network, S, 199+
( )
( )
0
,
ln ,
I
y x I
y x L =
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
21 / 82
Statistiques des scnes naturelles (rsum)
Quelques rsultats retenir:
Correlation entre les pixels
Invariance lchelle
Spectre de puissance : loi en 1/f
a
(a~2)
Corrlation dordre leve: forme invariante suivant lchelle
dintgration
Distribution sur-gaussienne codage creux
Spectre de puissance caractrise certaines catgories
de scnes/objets
Au niveau global
Avec rpartition spatiale rgulire
E.P. Simoncelli, B.A. Olsahausen,
Annu. Rev. Neurosci., 2001
Dcrire les images
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
23 / 82
Description bas-niveau
Schma global dindexation par le contenu
Segmentation Description
Segmentation Description Comparaison
Indexation
----------------------------------------------------------------------
Recherche
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
24 / 82
Descripteurs globaux et semi-locaux
Global = calcul sur toute limage
Semi-local = restreint une rgion:
Dfinie par segmentation
Pr-dtermine arbitrairement:
22
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
25 / 82
La question de la segmentation rgion
Souvent considr comme une premire tape avant la
reconnaissance dobjet ou de scne
Nombreux algorithmes:
Clustering, JSEG, LPE, Blobworld
Souvent reconnu comme imparfait/difficile
En effet, segmenter parfaitement CEST reconnatre!
Utile en soi dans des cas spcifiques:
Images mdicales, vues du ciel , dans lindustrie
Segmentation imparfaite est aussi utile en gnral
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
26 / 82
La question de la segmentation rgion
Exemples
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
27 / 82
Descripteurs bas niveau
Proprits dinvariance (souhaites!)
Gomtriques
Translation
Rotation
Echelle
Signal
Bruit
Eclairage
Couleur
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
28 / 82
Descripteurs de couleur
1 Choisir un espace de couleur
RGB, HSV, Lab, Luv, YCrCb, HMMD
2 Y calculer une fonction mathmatique
Histogramme couleur [Swain & Ballard, 1991]
Rapide calculer
Invariant spatial!
Peut tre localis
(color structure MPEG7)
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
29 / 82
Descripteurs de couleur
Beaucoup dautres descripteurs couleur
MPEG-7: dominant color, scalable color, color layout
Color coherence (incohrent) vector
Couleur: peut donner des rsultats spectaculaires pour
certains corpus (ou certaines catgories dimages)
Mais un humain peut reconnatre beaucoup de choses
sans couleur
A
B
c
c
i
i
0 0 0 0 0
0 0 8 8 0
0 0 8 8 0
0 0 0 0 0
HistogrammedeAetB
A
B
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
30 / 82
Descripteurs de forme
Prsuppose lexistence deFormes!
Dtermination de rgions par segmentation
Extraction de contours
Description de la gomtrie des rgions
Indices gomtriques: symtrie, orientation principale
Moments de Zernike
Description de la gomtrie des contours
Curvature Scale Space [Mokhtarian, 1986]
Rotation
Translation
Zoom normalisation
S(t) = (x(t),y(t))
K(t)
23
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
31 / 82
Descripteurs de forme
Approche venant de lOCR
Projection
[rec81]
Parfois dtect avec des descripteurs de texture
Descripteurs de Fourier, Filtres de Gabor (cf. aprs)
Certaines formes (notamment les objets) sont
dtects avec des descripteurs locaux (cf. aprs)
Projectionsselonlesaxes
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
32 / 82
Descripteurs de texture
Dfinition de la textureNon univoque!
Ce qui reste quand on a enlev le reste [Smith &
Chang,1997], [Gevers & Smeulders 2004],
Travaux de Beck et Julesz ( textons ) dans 70s
Combinaison dun grand nombre dobjets
Individus ont trs peu dimportance
Importance = proprits structurelles
Exemples
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
33 / 82
Importance de lchelle
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
34 / 82
Descripteurs de texture
Dtection de rgularit plus ou moins fines
Mthodes statistiques
Autocorrelation
Texture rgulire extrema locaux
Co-occurrence [Haralick 73]
Identification de trait perceptifs majeurs [Tamura 76]
Bas sur des expriences psychologiques
chelle, contraste, direction, tendance, rgularit rugosit
Multiresolution Simultaneous Autoregressive Models
Modle dimage SAR (w~N(0, ))
Estimation et par Max Vraisemblance ou Moindres Carrs
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
35 / 82
Descripteurs de texture
Approches analyse harmonique (filtrage)
Transformation de Fourier
Filtres de Gabor
Transforms en ondelettes
Ridgelets, curvelets
+
=
2
) (
sin cos
2 1 2 / 1
x a x f
a
b x x
a CRT
f
N
i
i i
y x y y x I
1
) , ( . ) , (
y
1
* y
2
* ... y
n
*
Modle
interne
y
n
y
2
y
1
I(x,y)
i
(x,y) y
i
|Olshausen &Field,1996|
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
38 / 82
Descripteurs ACI
ACI
X
1
X
2
X
N
Nouvelle base de
reprsentation
(Extraction filtres)
Nouvelles
coordonnes
Indpendance
maximale
Donnes =
imagettes 32x32
apodises.
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
39 / 82
Descripteurs ACI
Prtraitements
Prtraitements
Prtraitements
Prtraitements
ACI
ACI
ACI
ACI
ACI
Filtres parcatgorie
Filtres toutescatgories
|Bosh&Labbi,1999,2001|
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
40 / 82
Descripteurs ACI
.
Selection
Filtres AC!
Filtered
!mage
.'2
Carte
d'energie
Estimation de la
densite
Activite
{.{
[Le Borgne et al., 2004]
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
41 / 82
Similarit pour descripteurs ACI
ImageI
k
ImageI
l
Eloignement
I
k
etI
l
Proprit
d indpendance
statistique
Nddp Nddp
Ndivergencesentred.d.p
. . .
1 234..N
ADCI,|Amato
et al.,2002|
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
42 / 82
ACI: modle activit maximale
|Labbi,1999|
|LeBorgneet al.,2007|
ImageI
k
ImageI
l
. . .
NUMERO deIiltre
leplusactiIen
chaquepixel
12 3 4.N 12 3 4N
KL
Eloignement
I
k
etI
l
1
N
Histogramme
AdaptationdesIiltres
auxstatistiquesdes
catgories
25
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
43 / 82
Signature globale dune scne
Discriminant Spectral
Template
Bas sur une dcomposition
type ACP
Adaptation aux proprits
spectrales des scnes
naturelles
En pratique, approximation
par filtres de Gabor
[Oliva, Torralba, 2001]
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
44 / 82
Descripteurs locaux
Principe gnral:
1) Dtecter les points dintrts
2) Y calculer un descripteur invariant local
3) Crer un vocabulaire commun aux images
4) Les dcrire en termes de sac de descripteurs
Les points dintrt:
Changements locaux de luminosit importants (forts contrastes)
Dtecteur de coins: mthode de Harris
Critre de Harris
J= det(M) k (trace(M))
2
Points dintrt : J > seuil
Valeurs propres de M = courbures principales de la fonction dauto-corrlation. Point
dintrt quand les deux courbures sont grandes.
Dautres mthodes dextraction de points dintrt:
Amliorations dHarris prcis multi chelle Laplace Linderberg
MSER, Hessien, DoG, Intensit, Edge-based,
Cartes de salience
= 2
2
) , (
y
I
y
I
x
I
y
I
x
I
x
I
y x M
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
45 / 82
Descripteurs locaux
Evaluation des mthodes [Mikolajczyk et al., 2005]
Pas de meilleur dans tous les cas
Souvent MSER ou Hessien
Conseille den prendre plusieurs
Descripteurs locaux
SIFT [D. Lowe, 2004]
SURF [Bay et al., 2006]
Image patches ! [Deselaers et al., 2005]
Utiliss seuls pour la reconnaissance dinstances
dobjets
Utiliss en groupement pour la reconnaissance de
catgories dobjets
Donnes apprentissage
Nouvelle donne
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
52 / 82
SVM
Avantages
Multiples algorithmes efficaces disponibles
Peu de paramtres
Problmes
Choisir K (le noyau!)
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
53 / 82
Boosting
v3
h3
` Boosting : somme de classifieurs faibles
` Itratif: insiste sur les donnes mal classe
Image 1
Image 2
Image 3
Image 4
Image 5
Image 6
Classe 1 Classe 2
v3 v2 v1 v6 v5 v4
v5
h5
Image 1
Image 2
Image 3
Image 4
Image 5
Image 6
h3 h5 H
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
54 / 82
Classif multiclasse (et Boosting)
` ProbIeme muItIcIasse
-seIectIon des cIassIIIeurs IaIbIes
quI mInImIse I'erreur quadratIque ponderee
Methode "un-contre-tous"
Methode "un-contre-un"
-cIassIIIeur IaIbIe h(I,S)
-conIIguratIon de partage des cIasses S
( ) ( ) ( )
= =
+
C
c
N
i
i m
c
i
c v H :
m
c v h : e h H J
i
c
i
1 1
2
) , ( .
,
Problme : complxit dapprentissage quand C crot [Honnorat, Le Borgne 2009]
S
2
S
3
S
1
S
123
S
13
S
23
S
12
Exemple :
3 classes identifier
]oInt 8oostIng
( )
= =
=
C
c
N
i
c v H : i
c
i
e J
1 1
, .
27
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
55 / 82
Approches baysiennes
Bayes naf
Avec des Bo_SIFT [Csurka et al., 2004],
Avec Bo_Patches [Deselaers et al., 2005]
) , ( ) ( c w p c p
Proba a priori
De la classe
Vraisemblance de
Limage sachant
la classe
=
=
N
n
n
c w p c p
1
) , ( ) (
Classe
attribue
) , ( w c p
c
c max arg =
w
N
c
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
56 / 82
Approches baysiennes (2)
Modles hirarchique : pLSA
Probabilistic LSA [Hoffman, 2001]
Une image = mixture de topics
Estimation vraisemblance par EM
Modle scne = mixture topics
[Barnard et al. 2003]
Approximate Fisher Criterion
[Glotin et al., 2006]
=
=
K
k
f k k i f i
a : p : w p a w p
1
) , ( ) , ( ) , (
Sivic et al., ICCV 2005
) , ( max arg a : p :
:
=
w
N
d z
D
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
57 / 82
CBIR - Historique
Premires rfrences (?)
Hirata, K. & Kato, T. (1992). Query by visual example -- content based
image retrieval. In Advances in Database Technologies (EDTB 92)
(pp. 56-71). Vienna, Austria.
Discrimination grandes classes
Swain & Ballard, 1991 (color indexing)
Gorkani & Picard, 1994 (texture natural/artificial)
Szummer & Picard, 1998 (indoor/outdoor)
Vailaya, Jain, Zhang, 1998 (image classification)
1990s: premiers systmes CBIR
QBIC [Faloutsos et al., 1994]
Photobook [Pentland, Picard, Scaroff, 1994]
VisualSeek [Smith & Chang, 1996],.
Virage [Gupta & Jain, 1997]
Netra [Ma & Manjunath, 1997]
2000 : end of the early years [Smeulders et al.]
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
58 / 82
CBIR - Historique
Dtection de points dintrt
[Schmid & Mohr, 1997]
Premiers modles bag of words (reconnaissance de textures)
[Cula & Dana, 2001] [Leung & Malik 2001] [Mori, Belongie &
Malik, 2001] [Schmid 2001]
Reconnaissance dobjets
BoF + classifieur: [Csurka, Bray, Dance & Fan, 2004] [Sivic,
Russell, Efros, Freeman & Zisserman, 2005] [Sudderth, Torralba,
Freeman & Willsky, 2005]
Pyramid Match Kernel [Grauman & Darrell, 2005]
Reconnaissance de scnes
Gist: [Oliva & Torralba, 1999, 2001]
Bof: [Vogel & Schiele, 2004] [Fei-Fei & Perona, 2005] [Bosch,
Zisserman & Munoz, 2006]
Approches mixtes
(texte + image)
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
60 / 82
Du page rank au visual / image rank
Historique
Page rank prsent par S. Brin et Larry Page en 1998
Yushi Jing, Shumeet Baluja, Page Rank for Product Image
Search, www08, Beijing, China, April 2008
http://www2008.org/papers/pdf/p307-jingA.pdf
Principe gnral:
Page rank = popularit % Nb liens entrants
Visual rank = popularit des descripteurs locaux
Bien entendu, lalgo de www.google.com est plus
complexe (e.g : viter google bombs)Et plus secret!
28
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
61 / 82
Rappel sur le page rank (1)
Le PageRank brut est donn par:
S. Brin, L.Page, The anatomy of a large-scale hypertxtual web search engine.
Computer Networks and ISDN Systems, 30(1-7):107-117, 1998
Random surfer: PR(A) comme la probabilit quun utilisateur surfant de faon
alatoire sur le web, tombe sur la page A.
Le PageRank de A dpend du PR de chaque page pointant sur A. Soit un
systme linaire:
PR = SxPR
Ensemble des pages web = graphe (S est la matrice dadjacence)
PR est un vecteur propre de S
Mesure de centralit (centrality) du graph = importance relative dun noeud
Trouver le vecteur propre principal de S (=plus grande valeur propre) en
utilisant une mthode itrative (power iteration):
On multiplie rcursivement S PR
PR(k+1) = SxPR(k) (hypothse: lments normaliss)
( )
( )
( )
i
i
PR T
PR A
C T
=
C = # liens ext.
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
62 / 82
Rappel sur le page rank (2)
Pour que cela converge, il faut que :
S soit apriodique et
S soit irrductible (le graphe doit tre fortement connect)
Pour cela, ajout dun damping factor d (0.85) qui va simuler un lien fictif
chaque page offrant la possibilit au random surfer de continuer de surfer !
A partir dune page A:
le surfer va aller sur une page adjacente avec la probabilit d
Le surfer peut sauter vers une autre page avec la probabilit 1-d
Le facteur d, donne au random surfer un chappatoire de toute rgion
dconnecte ou priodique du graphe S
convergence
Formule de PageRank avec le damping factor
Avec PR : PageRank value
N : Nombre de pages web
Ti : pages web pointant sur A
C(Ti) : nombre de liens externes de la page Ti
d : damping factor
( ) 1
( )
( )
i
i
PR T a
PR A a
N C T
= +
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
63 / 82
Page rank : exemple
Exemple* (N=3 et d variable)
* http://pr.efactory.de/e-pagerank-algorithm.shtml
A
B
C
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.2
0.22
0.24
0.26
0.28
0.3
0.32
0.34
0.36
0.38
0.4
Damping factor
P
a
g
e
ra
n
k
PR(A)
PR(B)
PRC)
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
64 / 82
Visual / image rank (1)
Le Visual Rank est (presque) identique au PageRank
On cherche trouver limportance dune image parmi un ensemble
dimages (gnralement ramen via une requte textuelle)
Les liens entre les local features (SIFT) des images aux hyperliens
entre les pages web pour le PageRank
De la mme faon:
La matrice dadjacence S est dfinie par la similarit entre chaque couple
dimage
S(i,j) = Similarit(Image
i
, Image
j
)
S est symtrique et donc non directionnelle comme pour le cas du
PageRank mais cela nempche pas la convergence du processus
iteratif
( ) 1
( )
( )
i
A
i
PR Image a
PR Image a
N C Image
= +
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
65 / 82
Visual / image rank (2)
Similarit entre deux images:
Pour chaque image : vecteur SIFT
Image = {sift1, sift2, sift2, siftN},
A = {sift
A
1
, , sift
A
M
} , B = {sift
B
1
, , sift
B
N
}
Similarit(A, B) = 2 * nombre_sift_commun / (N+M)
Sift en commun : vague mais non expliqu dans larticle.
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
66 / 82
Visual / image rank : exemple
Sim(A,B)=3/5.5=0.545
Sim(A,C)=1/6=0.167
Sim(B,C)=1/6.5=0.154
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
A B
C
1 0.545 0.167
0.545 1 0.154
0.167 0.154 1
S
=
A
B
C
(0.545)
(0.154)
(0.167)
Graphe dadjacence pour
les 1000 premires images
de Mona Lisa
Nb: il faut normaliser par colonne
29
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
67 / 82
Visual / image rank : conclusion
Peut sinclure dans une approche coarse-to-fine : descripteurs
globaux puis ranking par approche locale via le VisualRank
Yushi Jing et Shumeet Baluja nutilisent que des SIFTs mais
dautres descripteurs locaux sont possibles.
Similarit entre deux images
Un critre de matching entre deux sifts trop svre risque de
crer un graphe peu connect.
Inversement un critre trop lche risque dentraner un graphe
trop uniformment dense
Daprs larticle la convergence de PR(k+1) = dSxPR(k) + (1-
d)/N est rapide.
Nombre restreint dimage aprs une phase purement texte
Problmes calculatoires pour un grand nombre dimages
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
68 / 82
WikipediaMM (1)
Tche de la campagne ImageCLEF
retrouver des images pertinentes partir
de requtes texte+ image
Corpus: ~ 150,000 images de wikipedia
Image au format JPG, PNG,
Photos
Dessins
Graphiques
Des annotations textuelles parmi:
Titre de la page
Lgende de la photo
Description supplmentaire
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
69 / 82
WikipediaMM (2)
Exemples (simplifis) de documents
<?xml version="1.0"?>
<article>
<name id="256883">AdvertiserParksDies.jpg</name>
<image ()> AdvertiserParksDies.jpg</image>
<text>
<h2>Summary</h2>
Front page of October 2005 Montgomery Advertiser
Rosa Parks
<h2>Licensing</h2>
Newspapercover
</text>
</article>
<?xml version="1.0"?>
<article>
<name
id="256888">ARP_Reticulated_Python.jpg</name>
<image ()> ARP_Reticulated_Python.jpg</image>
<text>
Reticulated Python photo I took at a local zoo.
GFDL
</text>
</article>
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
70 / 82
WikipediaMM (3)
Exemple de requte:
Modalits utilisables
Texte
Image (contenu)
Connaissances externes (web dontwww.wikipedia.org !)
Eventuellement : boucle de pertinence
Gothic cathedral
People riding bicycle
Stars and nebulae
in the dark sky
Bridge at night
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
71 / 82
Mtriques
RappeI =
71
mages renvoyees
par Ie systeme (N)
mages
non-seIectIonnees
Documents pertInents (K)
PrecIsIon =
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
72 / 82
Mtriques
Compromis Prcision-Rappel
F-measure =
PrecIsIon+RappeI
2.PrecIsIon.RappeI
MAP (Mean Average PrecIsIon)
9 documents
1
2
3
4
8
3
4
PrecIsIon
35
108
MAP
1
F-measure
1
2
1
PrecIsIon
1
RappeI
+ =
30
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
73 / 82
Content-based reranking
Travaux CEA LIST pour wikipediaMM
[A. Popescu, Le Borgne, Mollic, 2008]
[Myoupo, Popescu, Le Borgne, Mollic, 2009]
Algorithme en deux tapes
Ramener les images partir des concepts trouvs dans le
texte dfinition de structures conceptuelles
Reclasser les images ramenes partir de leur information
de contenu dfinition de la cohrence visuelle
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
74 / 82
CBrrK structures conceptuelles
Source = dump wikipedia avril 2009
Catgorie des articles (extraction relation isA)
Prtraitement du texte (des requtes)
Retirer les stop words et quelques termes spcifiques (image,
photographs)
Lemmatisation
Ordonnancement par raret des termes (Term Frequency)
Reformulation (synonymes)
Slection de 5000 articles dont une catgorie a au moins un terme
en commun avec le topic
Pondration des concepts en fonction de leur pertinence la
requte
Mise en correspondance avec le texte associ aux images
Voir cours Eric Gaussier (ERMITES 2009) pour dautres possibilits.
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
75 / 82
CBrrK Cohrence visuelle
But : distinguer les images requte des images bruit
Score de I Score de I Score de I Score de I' '' 'Image = 3 D Image = 3 D Image = 3 D Image = 3 D
mage a traIter
Prototype vIsueI
IIIustrant Ia requete
Espace bruIt
1
1
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
76 / 82
CBrrK Mthodes de fusion
TLEP TLEP TLEP TLEP
8oF 8oF 8oF 8oF
TLEP TLEP TLEP TLEP
8ags oI Features
k premIeres
Images
Prototype Prototype Prototype Prototype vIsueI vIsueI vIsueI vIsueI
preFUS preFUS preFUS preFUS 8ags oI Features 8ags oI Features 8ags oI Features 8ags oI Features
TextureLEP
Prototype vIsueI Prototype vIsueI Prototype vIsueI Prototype vIsueI
preFUS preFUS preFUS preFUS TextureLEP TextureLEP TextureLEP TextureLEP
8ags oI Features
Prototype vIsueI Prototype vIsueI Prototype vIsueI Prototype vIsueI
8ags 8ags 8ags 8ags oI oI oI oI Features Features Features Features
Prototype vIsueI Prototype vIsueI Prototype vIsueI Prototype vIsueI
TextureLEP TextureLEP TextureLEP TextureLEP
k premIeres
Images
k premIeres
Images
FusIon
somme sur Ies rangs
TextureLEP
FusIon
postFUS postFUS postFUS postFUS
somme
sur Ies
rangs
S SS Se ee eIectIon texte IectIon texte IectIon texte IectIon texte
k
G
FusIon
preFUS preFUS preFUS preFUS
somme
sur Ies
rangs
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
77 / 82
CBrrK Rsultats imageCLEF
2009 :
MAP = +4%
2008: MAP= +1
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
78 / 82
Conclusion
Linformation est:
Autour des images (texte)
Dans les images (contenu)
CBIR: nombreuses mthodes dont la base est:
Description du contenu
Apprentissage de concept
Progrs des algorithmes CBIR purs
Tendance aux descripteurs locauxDe + en + denses!
Prise en compte des statistiques globales
Scnes + contexte des objets
Utilisation de linformation textuelle est fondamentale
en pratique. Deux tapes:
Ramener des images avec les informations texte
Affiner avec linformation pixelique
Utilisation en vido: cours de G. Quenot
et B. Merialdo
Texte + image : cours de J. Le Maitre
31
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
79 / 82
Bibliographie
U. Amato, A. Antoniadis, and Grefoire G. Independent component discriminant analysis. International
Mathematical Journal, pages 735753, 2002.
De Valois, R.L. and De Valois, K.K., 1988. Spatial vision. , Oxford University Press, New York pp. 1381 .
A. Torralba, A.Oliva, Statistics of Natural Image Categories. Network: Computation in Neural Systems 14
(2003) 391-412
Th. Gevers and A.W.M. Smeulders, Content-based Image Retrieval: An Overview, from the book
Emerging Topics in Computer Vision, G. Medioni and S. B. Kang (Eds.), Prentice Hall, 2004.
M. Gorkani and R. W. Picard. Texture Orientation for Sorting Photos "at a Glance". Proc. International
Conference on Pattern Recognition, Jerusalem, Vol. I, pp. 459-464, 1995
R.M. Haralick, Texture feature for image classification, IEEE Transactions on Systems, Man, and
Cybernetics 3 (1973) (1), pp. 610621
Hirata, K. & Kato, T. (1992). Query by visual example -- content based image retrieval. In Advances in
Database Technologies (EDTB 92) (pp. 56-71). Vienna, Austria.
Le Borgne H., Gurin-Dugu A., Antoniadis A. Representation of images for classification with
independent features Pattern Recognition Letters, vol 25, N2, pp 141-154, january 2004.
H. Le Borgne, A. Gurin-Dugu, N.E. O'Connor Learning Mid-level Image Features for Natural Scene and
Texture Classification IEEE transaction on Circuits and Systems for Video Technology, 17(3):286-297,
march 2007
B. S. Manjunath, Phillipe Salembier, Thomas Sikora, Introduction To Mpeg-7: Multimedia Content
Description Interface, John Wiley & Sons , juin 2002.
Olshausen BA, Field DJ (1996). Emergence of Simple-Cell Receptive Field Properties by Learning a
Sparse Code for Natural Images Nature, 381: 607-609
D. L. Ruderman, The statistics of natural images, Network 5, 517548 (1994)
E. P. Simoncelli and B. A. Olshausen, Natural image statistics and neural representation, Annu. Rev.
Neurosci. 24, 11931216 (2001)
MJ Swain, DH Ballard: Color Indexing, International Journal of Computer Vision, 1991
H. Tamura, S. Mori, and T. Yamawaki. Texture features corresponding to visual perception. IEEE
Transactions on Systems, Man, and Cybernetics, vol. SMC-8, no. 6, 1978, 460 - 473.
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
80 / 82
Bibliographie
M. Flickner, H. Sawhney and Niblack et al., Query by image and video content: The QBIC system, IEEE
Comput. 28 (1995) (9), pp. 233
Gupta, A. Visual information retrieval: A Virage perspective. Tech. Rep. TR95-01, Virage, Inc. , San
Mateo, California, 1995.
A. Gupta, S. Santini, R. Jain Search of Information in Visual Media. Commun. ACM 40(12): 34-42 (1997)
Ma, W.Y., Manjunath, B.S., 1997. Netra: A toolbox for navigating large image database. In: Proc. Int.
Conf. on Image Processing, pp. 568571.
Mokhtarian, F., and Mackworth, A.K., Scale Based Description and Recognition of Planar Curves and
Two-Dimensional Shapes, PAMI(8), No. 1, January, 1986, pp. 34-43.
Niblack, W., Barber, R., Equitz, W., Flickner, M., Glasman, E., Petkovic, D., Yanker, P., Faloutsos, C. and
Taubin, G. (1993). The QBIC project: querying images by content using color, texture, and shape.
Storage and Retrieval for Image and Video Databases, 1908, 173-181.
A. Pentland, R. W. Picard, and S. Scaroff, "Photobook: Tools for content-based manipulation of image
databases," in SPIE Proc. Storage and retrieval for image and video databases II, 1994, Vol. 2185, pp.
34- 46. "Longer version available as MIT Media Lab Perceptual Computing," Technical Report No. 255,
Nov. 1993
[Rec81] "La recherche" Numro 186, octobre 1981 spcial OCR
A W M Smeulders, M Worring, S Santini, A Gupta, R Jain Content-Based Image Retrieval at the End of
the Early Years IEEE T PAMI, 22(12):1349-1380, 2000
J. R. Smith and S.-F. Chang. VisualSEEk: a fully automated content-based image query system , ACM
multimedia, Boston, Massachusetts, United States, p 87 - 98, 1997.
Szummer, M., Picard, R.W., 1998. Indoor-outdoor image classification. In: IEEE Internat. Workshop on
Content-based Access of Image and Video Databases, in conjunction with ICCV'98. Bombay, India.
Vailaya, A., Jain, A., Zhang, H.J., 1998. On image classification: city vs. landscape. In: IEEE Workshop on
Content-Based Access of Image and Video Libraries, Santa Barbara, California, June 21. 1990s:
premiers systmes CBIR
Viola, Jones Rapid Object Detection using a Boosted Cascade of Simple Features , CVPR 2001
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
81 / 82
Bibliographie
C. Schmid and R. Mohr Mise en Correspondance par Invariants Locaux. Traitement de Signal, 1997.
C. Schmid, R. Mohr Local Grayvalue Invariants for Image Retrieval IEEE PAMI 19(5) - 1997
Oana G. Cula, Kristin J. Dana: 3D Texture Recognition Using Bidirectional ... Representation of
Bidirectional Texture Functions. CVPR (1) 2001: 1041-1047
C.Schmid. Constructing models for content-based image retrieval . CVPR, vol. 2, 39-45, 2001
G. Csurka, C. R. Dance, L. Fan, J. Willamowski, and C. Bray, "Visual categorization with bags of
keypoints," in In Workshop on Statistical Learning in Computer Vision, ECCV, 2004, pp. 1-22
Josef Sivic, Bryan Russell, Alexei A. Efros, Andrew Zisserman, and Bill Freeman, "Discovering Objects
and Their Location in Images," ICCV 2005, October, 2005.
Sudderth, E. B., Torralba, A., Freeman, W. T. & Willsky, A. S. Learning hierarchical models of scenes,
objects, and parts. In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, vol. 2,
1331-1338 Vol. 2 (2005) ]
Grauman, K. & Darrell, T. The pyramid match kernel: discriminative classification with sets of image
features . In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, vol. 2, 1458-
1465 Vol. 2 (2005)
A. Torralba, A. Oliva Semantic organization of scenes using discriminant structural templates ICCV,
pp 1253-1258, Korfu, Grece, 1999.
A. Oliva, A. Torralba Modeling the shape of the scene: a holistic representation of the spatial envelope
International Journal of Computer Vision, Vol. 42(3): 145-175, 2001.
Vogel, J. and Schiele. Natural scene retrieval based on a semantic modeling step. CIVR 2004, Dublin,
Ireland. Springer Verlag, New York.
Fergus, R., Fei-Fei, L., Perona, P. & Zisserman, A. Learning object categories from google's image
search. In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on, vol. 2, 1816-
1823 Vol. 2 (2005)
N. Honnorat, H. Le Borgne. Acclrer le boosting avec partage de caractristiques. Proc. of CORESA
2009, pp 203-208, Toulouse, France, 18-20 march 2009.
ERMITES 2009 Recherche dinformation dans les images herve.le-borgne@cea.fr
82 / 82
Bibliographie
S. Lazebnik, C. Schmid and J. Ponce Beyond bags of features: spatial pyramid matching for
recognizing natural scene categories IEEE Conference on Computer Vision and Pattern Recognition,
2006.
A. Bosch, A. Zisserman, and X. Muoz, "Scene classification via plsa," ECCV 2006, pp. 517-530 ]
David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of
Computer Vision, 60, 2 (2004), pp. 91-110
K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir and L. Van
Gool A comparison of affine region detectors .
International Journal of Computer Vision, 65(1/2):43-72, 2005.
K. Mikolajczyk, C. Schmid A performance evaluation of local descriptors.IEEE Transactions on Pattern
Analysis and Machine Intelligence, 27(10):1615-1630, 2005
Thomas Deselaers , Daniel Keysers , Hermann Ney, Discriminative Training for Object Recognition Using
Image Patches, Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and
Pattern Recognition (CVPR'05) - Volume 2, p.157-162, June 20-26, 2005
S.-A. Berrani, L. Amsaleg, P. Gros. Recherche approximative de plus proches voisins : application la
reconnaissance d'images par descripteurs locaux. Technique et Science Informatiques, ed. Hermes -
Lavoisier, 22(9):1201-1230, 2003.
S. Brin, L.Page, The anatomy of a large-scale hypertxtual web search engine. Computer Networks and
ISDN Systems, 30(1-7):107-117, 1998
Yushi Jing, Shumeet Baluja, Page Rank for Product Image Search, www08, Beijing, China, April 2008
A. Popescu, H. Le Borgne, P.-A. Mollic. Conceptuel Image retrieval over a Large Scale Database .,
Lecture Notes in Computer Science, vol. 5706, Springer 2009
D. Myoupo, A. Popescu, H. Le Borgne, P.-A. Mollic. Visual Reranking for Image Retrieval over the
Wikipedia Corpus . Working notes for the CLEF 2009 Workshop, Corfu, Grece, 29 sept - 2 oct 2009.
A. Popescu, H. Le Borgne, P.-A. Mollic Conceptual Image Retrieval over the Wikipedia Corpus
Working notes for the CLEF 2008 Workshop, Aarhus, Denmark, 17-19 September 2008.
32
Jean-Paul Gauthier
LSIS, Toulon
Neurogomtrie dterministe d'illusions visuelles
Je prsente un algorithme de reconstruction d'images altres bas sur la thorie
neurogomtrique de Petitot. Pour cela, il faut calculer le noyau de la chaleur
correspondant la mtrique de Carnot-Carathodory, ce que je fais explicitement en
terme des fonctions trigonomtriques de Mathieu. Le calcul effectif des solutions de
l'quation de la chaleur se rduit ensuite une srie d'intgrales, qui donne lieu un
dveloppement explicite en transformes de Fourier-Bessel.
J'explique ces calculs trs faciles, et je prsente des rsultats d'extrapolation d'images,
qui produisent exactement ce que l'on attendait, notamment dans le cas dillusions
visuelles classiques. Pralablement, je prsente brivement (ce que j'ai compris de) la
thorie neuro-gomtrique de Petitot en rsumant ses aspects psycho-visuels.
33
|ean-Pau Gauther
|ean Dupax
Francesco Ross
LSIS - USTV
Reconstructon dmages
(seon Mr Pettot)
Probmatque :
Reconstructon de courbes
Reconstructon dmages
Lft of a curve on PTR2
The SR probem on SE2-1
34
The SR probem on SE2-2
Reconstructon de courbes
Yur Sachkov
35
Reconstructon of mages
Hypoeptc dffuson
Sovng the heat equaton
Resuts
Resuts
The mathematca agorthm
36
The agorthm (contnue)
The agorthm (end)
The hypoeptc evouton Hypoeptc evouton
Hypoeptc evouton
Computaton of GFT
37
Computaton of GFT(contnue)
Neighbour problem 1: Car with a trailer
Dmo en gne sur e ste ERMITES09
Neighbour problem 2: the cat on a ball on a plane.
Dmo en gne sur e ste ERMITES09. Merc de votre attenton
38
Jrme Farinas
IRIT, Toulouse
Mthodes spectrales pour l'indexation audiovisuelle
Les donnes multimodales font gnralement partie dune varit de faible
dimensionnalit embote dans un espace de haute dimension. Ces reprsentations
peuvent fournir des informations utiles sur la nature et lorganisation des donnes,
exploitables en tches de classification ou regroupement.
Nous prsentons les mthodes spectrales de rduction de la dimensionnalit qui
construisent ces reprsentations. Nous en analysons les rsultats sur des informations
acoustiques (musique, parole). Nous tudions la dimensionnalit intrinsque des
vecteurs ainsi que la variance originale retenue dans les composantes principales de
leurs reprsentations de faible dimensionnalit. Nous montrons aussi lefficacit de cette
thorie du regroupement spectral dans le cas de squences audio, et en donnons les
perspectives pour la RI multimodale.
39
ERMITES 2009 Giens, 23 septembre 2009 1
Mthodes spectrales pour
l'indexation audiovisuelle
!
"#"$%&'$("""
ERMITES 2009 Giens, 23 septembre 2009 2
Mthodes spectrales pour le
traitement automatique de
documents audio
$)+,(-(.,(/0123
2+#-+45,2
ERMITES 2009 Giens, 23 septembre 2009 3
Objectives
!(62
+++1,22
#',(4(-22
2,178'2
ERMITES 2009 Giens, 23 septembre 2009 4
Outline
"+2
9(2
2(++(1+2
:,
22(+(2
2-+(,(-
:'(6++,
:2(+2'
ERMITES 2009 Giens, 23 septembre 2009 5
Introduction
8+2(-
;1+(1%,+(1<
2+
:(=
9(2
>?,2+2
(+
>+(+,+++-
+(2
ERMITES 2009 Giens, 23 septembre 2009 6
Outline
"+2
9(2
2(++(1+2
:,
22(4+(2
2-+(,(-
:'(6++,
:2(+2'
40
ERMITES 2009 Giens, 23 septembre 2009 7
State oI the art: kernel Iunctions
Feature space
@22+
'+
ERMITES 2009 Giens, 23 septembre 2009 8
State oI the art: kernel Iunctions
Desirable properties oI the new space
A1B
"(+222(2
A1C
"(+'(2
A17
"(+'+22?
D2
=(E(,2.2('2
2+23
ERMITES 2009 Giens, 23 septembre 2009 9
State oI the art: kernel Iunctions
Access to Ieature space: Kernels
F2222
psa is ) x , x ( K , X x
) x , : ( ) : , x (
that such
X X .
f i if i
=
=
) : ( ) x ( ) : , x (
that such space Hilbert a is F where
F X .
=
+G2(=1(1
E12E.#9E3%2(=1
(2((+,1E(,2
#
2 1
H i
i i
H f
f ) o ), x ( f ( J
n
min arg f
+ =
) x , x ( ) x ( f
i
i
i
=
a
n n
) o , x ( , ), o , x (
1 1
O X . f
ERMITES 2009 Giens, 23 septembre 2009 11
State oI the art: spectral methods
Spectral methods and dimensionality
reduction
(+(-,1,1%
++
"=22(
2(+'((+(2
,1-'(+-'22(2
ERMITES 2009 Giens, 23 septembre 2009 12
State oI the art: spectral methods
Linear methods: PCA
A2(:(1H(IJK
2(+22'2=
-'22(=='2
,2
-'(D2+'2(-
2(=$,-2.
-'3-'(+(1
41
ERMITES 2009 Giens, 23 septembre 2009 13
State oI the art: spectral methods
Linear methods: MDS
2(+(2(-HLMNK
2(+2++2=
.2+2(++26
'23
-'2>+(,++-
-'(2+
2,++2$,
-2.-'3-'(
+(1
ERMITES 2009 Giens, 23 septembre 2009 14
State oI the art: spectral methods maniIold learning
Nonlinear methods: ISOMAP
A'-+2+2+
(-(+
(-H$IIK
L(++D221-'2
++--+,1(2(+222
-,
-+22
--
28
ERMITES 2009 Giens, 23 septembre 2009 15
State oI the art: spectral methods maniIold learning
Nonlinear methods: ISOMAP
O22+
P-,+-(2-,+
(+.23
8-Q(R
>+?"(-42((2
ERMITES 2009 Giens, 23 septembre 2009 16
State oI the art: spectral methods maniIold learning
Nonlinear methods: ISOMAP
Finger
extension
Wrist rotation
ERMITES 2009 Giens, 23 septembre 2009 17
State oI the art: spectral methods maniIold learning
Nonlinear methods: Locally Linear Embedding
A'(2(-2(
(-H#IIK
P-,2
:26(2(-12
-,+,1-@
D
56(+(
ERMITES 2009 Giens, 23 septembre 2009 18
State oI the art: spectral methods maniIold learning
Nonlinear methods: LLE
82"5A
A'(2(-1-,(
(2((1(2
:2=
42
ERMITES 2009 Giens, 23 septembre 2009 19
State oI the art: spectral methods maniIold learning
Non linear methods: LLE
Pose
Expression
ERMITES 2009 Giens, 23 septembre 2009 20
State oI the art: spectral methods inIormation extraction
Nonlinear methods: Spectral clustering
82'2'=2(
#(=6-P2-%
,+-'21=
HP-IBK
=
3
2
1
3
2
1
33
22
11
0 0
0 0
0 0
0 0
0 0
0 0
Y
Y
Y
v
v
v
A
A
A
A
) (
) (
) (
ERMITES 2009 Giens, 23 septembre 2009 21
Outline
"+2
9(2
2(++(1+2
:,
22(4+(2
2-+(,(-
:'(6++,
:2(+2'
ERMITES 2009 Giens, 23 septembre 2009 22
Contribution
Corpora
5O"4>$
MS((22.JT2%U?63
((--.-(%O%E+%%
+%3
A2((1(,(+
P"$
BTI(+2.N2%BS?63
S?
&":
NI(.SI2%BS?63
:(2%--'2%2?%D66
ERMITES 2009 Giens, 23 septembre 2009 23
Contribution
Some considerations
:(=1
"%:49(A:UIII'2.B
-(3%BI22(,(
>>%>-%>+?"BIIII'2
+2+(1.>3
2U4M::
2N4U::
22++4B
ERMITES 2009 Giens, 23 septembre 2009 24
1st contribution: acoustic
inIormation in low-dimensional
spaces
43
ERMITES 2009 Giens, 23 septembre 2009 25
Contribution: acoustic inIormation in low-dimensional spaces
Speech maniIolds: speech structure
ERMITES 2009 Giens, 23 septembre 2009 26
Contribution: acoustic inIormation in low-dimensional spaces
Eigenvalues as dimensionality estimators
ERMITES 2009 Giens, 23 septembre 2009 27
Contribution: acoustic inIormation in low-dimensional spaces
Speech maniIolds: speech and music
ERMITES 2009 Giens, 23 septembre 2009 28
Contribution: acoustic inIormation in low-dimensional spaces
InIormation extraction: a new kind oI
projections
ERMITES 2009 Giens, 23 septembre 2009 29
Contribution: acoustic inIormation in low-dimensional spaces
InIormation extraction: labels
ERMITES 2009 Giens, 23 septembre 2009 30
2nd contribution: speech
segmentation and labeling
44
ERMITES 2009 Giens, 23 septembre 2009 31
Contribution: speech segmentation and labeling
Temporal spectral clustering
ik ki
i k
x x
ik
' a ' a
otherwise
S x if e
' a
k i if
k i
=
=
<
0
2
2
2
2+,(-
2(2(-2
ERMITES 2009 Giens, 23 septembre 2009 32
Contribution: speech segmentation and labeling
Temporal spectral clustering
ERMITES 2009 Giens, 23 septembre 2009 33
Contribution: speech segmentation and labeling
TSC: results
ERMITES 2009 Giens, 23 septembre 2009 34
Contribution: speech segmentation and labeling
2nd step: SCV labeling
ERMITES 2009 Giens, 23 septembre 2009 35
Contribution: speech segmentation and labeling
TSC-SCV labeling: test conditions &
results
JI25O"2.S
(--3
BJ::GG8G
#(
NJSSV22212+((,(-
#2B.+,3H5UUKNCSSV
#2C.3UBCCV
ERMITES 2009 Giens, 23 septembre 2009 36
Contribution: speech segmentation and labeling
Application: projection alignment
45
ERMITES 2009 Giens, 23 septembre 2009 37
Contribution: speech segmentation and labeling
Voiced C-Non Voiced C labeling
$:4:!%"2
SNIUV2221
ERMITES 2009 Giens, 23 septembre 2009 38
3rd contribution: content
visualization oI audio databases
ERMITES 2009 Giens, 23 septembre 2009 39
Contribution: content visualization oI audio databases
Audio databases
22+2
222(2
>--+2
?+2
A(!(622
2782W
&'++'+(1
ERMITES 2009 Giens, 23 septembre 2009 40
Contribution: content visualization oI audio databases
KL system
ERMITES 2009 Giens, 23 septembre 2009 41
Contribution: content visualization oI audio databases
KL system: speech music database
SI(
ERMITES 2009 Giens, 23 septembre 2009 42
Contribution: content visualization oI audio databases
KL system: music results
M--
'2
BN
(
7I2?D66
46
ERMITES 2009 Giens, 23 septembre 2009 43
Contribution: content visualization oI audio databases
KL system: languages database
SI(%7
(--
ERMITES 2009 Giens, 23 septembre 2009 44
Contribution: content visualization oI audio databases
KL system: speakers databases
S?
7%7
7I(,1
?
ERMITES 2009 Giens, 23 septembre 2009 45
Contribution: content visualization oI audio databases
KL-CV system
ERMITES 2009 Giens, 23 septembre 2009 46
Contribution: content visualization oI audio databases
KL-CV system: speakers database
ERMITES 2009 Giens, 23 septembre 2009 47
Contribution: content visualization oI audio databases
SV system
ERMITES 2009 Giens, 23 septembre 2009 48
Contribution: content visualization oI audio databases
SV system: speakers database
47
ERMITES 2009 Giens, 23 septembre 2009 49
Contribution: content visualization oI audio databases
Supervised learning results on speakers
databases
!(2(%'((2-
MI((-%SI(
9>1
IV%UT'
9>4:1
777V%CC'
9>4!1
777V%BN'
!1
S%SSV%77'
ERMITES 2009 Giens, 23 septembre 2009 50
Outline
"+2
9(2
2(++(1+2
:,
22(4+(2
2-+(,(-
:'(6++,
:2(+2'
ERMITES 2009 Giens, 23 septembre 2009 51
Conclusions and perspectives
Conclusions
2(2?(2
"2+X-(::
+
2(+
A2(2
E+22(
2
ERMITES 2009 Giens, 23 septembre 2009 52
Conclusions and perspectives
Conclusions
2-+(,(-
5-(2
O+(+'((2
AD2(-((2(+(-
'((22
2=+(-'2
(1,2
&'++'+(1(
ERMITES 2009 Giens, 23 septembre 2009 53
Conclusions and perspectives
Future work
O(6-%2(2+
2(-2(+
"+12+2+
2
?+
ERMITES 2009 Giens, 23 septembre 2009 54
Bibliography
H(IJK(1+"+22>-"$
A%CIIJ
H5UUK#+45,22(2
22-$2+%2%
+-(A2-%BMUU
HLMNK"L-%AO+(+(2(-
$1+(2-%BMMN
H'-MMK$'-%A(%$A--#-(6
?+'22+'2
:(2%BMMM
HP-IBKP-%+%Y@52(2(-
(1+(-+'2P("
A2-1%"$A%CIIB
H#IIK#%>(P(+(1+2
,1(2((1(,++-22%CIII
H$IIK$,%!8('%>-+-(,(
-2?(+(1+2
22%CIII
48
M u S L Z M l
LZMl1LS
'
C
L
v C
A
L
u
L
M u S L Z M l
LZMl1LS
A
u
C
n
L
C
M u S L Z M l
LZMl1LS
C
L l l l L
u L Z
L l l n lln
L
n
l
S
l
C
A
A
S
M u S L Z M l
LZMl1LS
C
C
C
Z C
C
M u S L Z M l
LZMl1LS
M
C
L
L
A
C
S
C
A
M u S L Z M l
LZMl1LS
A
49
M u S L Z M l
LZMl1LS
S
L
Itti
Frintrop
M u S L Z M l
LZMl1LS
S
S vL
L
M u S L Z M l
LZMl1LS
S
u vL
L u
u
u
A
M u S L Z M l
LZMl1LS
S
u
Ressources (S)
Singularit
Proies (C)
Curiosit
Prdateurs (I)
Intrt => attention
M u S L Z M l
LZMl1LS
S
C
M u S L Z M l
LZMl1LS
S
C
50
M u S L Z M l
LZMl1LS
L
L
M u S L Z M l
LZMl1LS
L
L
S
M u S L Z M l
LZMl1LS
L
L
M u S L Z M l
LZMl1LS
u
M u S L Z M l
LZMl1LS
8
Z
u
M
L
M u S L Z M l
LZMl1LS
M
51
Eric Gaussier
LIG, Grenoble
Modles probabilistes pour la recherche d'information
Lapproche probabiliste pour la RI est trs diversifie. Elle peut la fois servir tablir
des modles de langage, dontologie, mais aussi mesurer les distances
documents/requtes. Nous prsentons les principales mthodes en question, et les
illustrons au travers de systmes de ltat de lart, en relation notamment avec le centre
RI de Xerox.
52
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Mod`eles Probabilistes pour la Recherche
dInformation
Eric Gaussier
Universite Grenoble 1 - Lab. Informatique Grenbole
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Introduction
Les mod`eles classiques (booleens et vectoriels)
Le mod`ele booleen
Le mod`ele vectoriel
Les mod`eles probabilistes
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Comparaison experimentale
Conclusion
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Problematique generale
Une collection de documents
Des utilisateurs, des besoins dinformation
Comment retrouver les documents repondant aux besoins
dinformation (documents pertinents) ?
Illustration
Collection darticles de journaux (Le Monde) sur plusieurs
mois/annees
Exemple de besoin dinformation (campagne AMARYLLIS) :
Comment ont ete traites les civils pendant le conit yougoslave ?
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Quelques specicites de cette problematique
Le besoin dinformation specie en general un th`eme de
recherche
d
x
d
w
N
w
Frequence documentaire de w :
N
w
=
d
I (x
d
w
> 0)
y
d
Longueur du document d
m Longueur moyenne dans la collection
L Longueur de la collection
RSV Retrieval Status Value (score)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele booleen (1)
Mod`ele simple fonde sur la theorie des ensembles et lalg`ebre de
Boole, caracterise par :
Des poids binaires (presence/absence)
Des requetes qui sont des expressions booleennes
Une pertinence binaire
Pertinence syst`eme : satisfaction de la requete booleenne
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele booleen (2)
Exemple
q = programmation langage (C java)
(q = [prog. lang. C] [prog. lang. java])
programmation langage C java
d
1
3 (1) 2 (1) 4 (1) 0 (0)
d
2
5 (1) 1 (1) 0 (0) 0 (0)
d
0
0 (0) 0 (0) 0 (0) 3 (1)
Score de pertinence
RSV(d
j
, q) = 1 si q
cc
q
dnf
tq w, t
d
w
= t
q
w
; 0 sinon
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele booleen (3)
Considerations algorithmiques
Quand la matrice documents-termes est creuse (lignes et
colonnes), utiliser un chier inverse pour selectionner le
sous-ensemble des documents qui ont un score de pertinence non
nul avec la requete (selection rapidement realisee). Le score de
pertinence nest alors calcule que sur les documents de ce
sous-ensemble (generalisation ` a dautres types de score).
d
1
d
2
d
3
programmation 1 1 0
langage 1 1 0
C 1 0 0
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele booleen (4)
Avantages et desavantages
+ Facile `a developper
- Pertinence binaire ne permet pas de tenir compte des
recouvrements thematiques partiels
- Passage dune besoin dinformation ` a une expression
booleenne
Remarque
`
A la base de beaucoup de syst`emes commerciaux
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele vectoriel (1)
Revient sur deux defauts majeurs du mod`ele booleen : des poids et
une pertinence binaires
Il est caracterise par :
Des poids positifs pour chaque terme dans chaque document
Mais aussi des poids positifs pour les termes de la requete
Une representation vectorielle des documents et des requetes
w1
w2
wM
q
d
Espacevectorieldestermes
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
54
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele vectoriel (2)
On consid`ere donc que les documents et les requetes sont des
vecteurs dans un espace vectoriel de dimension M dont les axes
correspondent aux termes de la collection
Similarite Cosinus de langle entre les deux vecteurs
RSV(d
j
, q) =
P
w
t
d
w
t
q
w
P
w
(t
d
w
)
2
P
w
(t
q
w
)
2
Propriete Le cosinus est maximal lorsque document et requete
contiennent exactement les memes termes, dans les memes
proportions ; minimal lorsquils nont aucun terme en commun
(degre de similarite)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele vectoriel (3)
Calcul des poids schemas tf-idf
Quest-ce qui decrit bien un document ?
ses termes frequents (tf
d
w
=
x
d
w
max
w
x
d
w
)
Quest-ce qui distingue un document des autres ?
ses termes speciques (idf
w
= log
N
Nw
)
t
w
= tf
d
w
idf
w
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele booleen
Le mod`ele vectoriel
Le mod`ele vectoriel (4)
Avantages et desavantages
+ Schemas de ponderation permettant de prendre en
compte dierentes proprietes des index
+ Un appariement partiel qui permet de retrouver les
documents qui repondent en partie ` a la requete
+ Un ordre total sur les documents qui permet de
distinguer les documents qui abordent pleinement les th`emes de la
requete de ceux qui ne les abordent que marginalement
- Diculte daller plus avant dans le cadre vectoriel (mod`ele
relativement simple)
Complexite : comme le mod`ele booleen, lineaire sur le nombre de
documents qui contiennent les termes de la requete (similarite
requete-document plus couteuse)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Les dierents mod`eles probabilistes
Binary Independence Model et BM25 (S. Robertson & K.
Sparck Jones)
Inference Network Model (Inquery) - Belief Network Model
(Turtle & Croft)
Statistical Language Models
w
P(A
w
= 1|q, R = r )
t
d
w
t
q
w
P(A
w
= 0|q, R = r )
(1t
d
w
)t
q
w
Nous obtenons :
RSV(q, d) =
rang
w
t
q
w
t
d
w
_
log(
P(A
w
= 1|R = r , q)
1 P(Aw = 1|R = r , q)
)+
log(
1 P(A
w
= 1|R = r , q)
P(Aw = 1|R = r , q)
)
_
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Le mod`ele BIR (4)
Comment calculer P(A
w
= 1|R = r , q) et P(A
w
= 1|R = r , q) ?
Procede iteratif :
1. On denit des valeurs initiales (par exemple
P(A
w
|R = r , q) = 0.5, P(A
w
|R = r , q) =
Nw
N
)
2. On eectue une recherche avec la valeur courante des
param`etres
3. On met `a jour les param`etres en fonction des resultats
retrouves (eventuellement avec laide de lutilisateur). Par
exemple, V designant le cardinal de lensemble des documents
juges pertinents pour la recherche courante :
P(A
w
= 1|R = r , q) =
V
w
V
, P(A
w
= 1|R = r , q) =
N
w
V
w
N V
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Le mod`ele BIR (5)
Avantages et desavantages
+ Une notion claire et theoriquement fondee du degre de
pertinence
+ Le processus de recherche dinformation est un processus
iteratif qui implique lutilisateur
- Sensibilite aux valeurs initiales
- Procedure destimation certes interessante mais couteuse
Complexite similaire au mod`ele vectoriel `a chaque iteration ; un
peu plus complexe en general
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Le mod`ele BM25
Permet de corriger les defauts du mod`ele BIR
RSV(q, d) = log(
N N
w
+ 0.5
N
w
+ 0.5
)
(k
1
+ 1)x
d
w
k
1
((1 b) + b
y
d
m
) + x
d
w
(k
3
+ 1)x
q
w
k
3
+ x
q
w
k
1
[1; 2], b = 0.75, k
3
[0; 1000]
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Introduction `a QL : deux des
Soient D
1
et D
2
deux des tels que :
Pour D
1
, P(1) = P(3) = P(5) =
1
3
, P(2) = P(4) = P(6) =
Pour D
2
, P(1) = P(3) = P(5) = ; P(2) = P(4) = P(6) =
1
3
Supposons que lon observe la sequence Q = (1, 3, 3, 2). Quel de
est le plus susceptible davoir genere cette sequence ?
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
56
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele QL (1)
Les documents jouent le r ole des des, la requete de la sequence.
On cherche alors quels sont les documents les plus susceptibles
davoir genere la requete.
Chaque document d est associe `a un mod`ele de document
d
et le
score de pertinence est donne par la probabilite que q soit generee
par ce mod`ele de document :
RSV(q, d) = P(q|
d
) ( P(q|R = r , d))
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele QL (2)
Dierentes lois de probabilite peuvent etre considerees :
Multinomiale : P(q|
d
) =
w
p(w|
d
)
x
q
w
(Song & Croft)
Processus de Bernoulli (t
q
w
binaires) :
P(q|
d
) =
w
P(t
q
w
= 1|
d
)
t
q
w
(1 P(t
q
w
= 1|
d
))
1t
q
w
(Ponte & Croft)
Poisson : P(q|
d
) =
w
(yqw)
x
q
w e
yqw
x
q
w
!
(Mei et al.)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele QL (3)
Comment estimer les param`etres (du mod`ele multinomial) ?
Une approche simple : le maximum de vraisemblance - on cherche
les valeurs de p(w|
d
) qui maximisent la probabilite dobserver le
document d
p(w|
d
) =
x
d
w
P
w
x
d
w
Probl`eme !
Solution : lissage
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele QL (4)
Pour lisser, on tient compte du mod`ele de la collection (fournit
linformation qui manque au niveau du document)
p(w|
d
) = (1
d
)p(w|
d
) +
d
p(w|
C
)
Avec : p(w|
d
) =
x
d
w
P
w
x
d
w
, p(w|
d
) =
Fw
P
w
Fw
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele QL (5)
Lissage de Jelinek-Mercer :
d
=
D ensemble de developpement (requetes et jugements de
pertinence)
= 0, recherche sur D et evaluation des resultats
Augmenter la valeur de de (e.g. 0.001), nouvelle recherche
sur D et evaluation des resultats
Repeter jusqu` a = 1
Selectionner la meilleure valeur de
Lissage de Dirichlet :
d
=
+y
d
est un param`etre appris comme precedemment (mais gamme de
variation plus large - R
+
)
(Zhai & Laerty)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele QL (6)
Avantages et desavantages
+ Un cadre theorique clair et bien fonde, facile `a implanter
et conduisant ` a de bons resultats
+ Facile `a etendre ` a dautes cadres (recherche
dinformation multilingue, boucle de pertinence, ...)
- Estimation des s necessite des donnees dapprentissage
- Diculte (conceptuelle) dune boucle de retro-pertinence
((pseudo-)relevance feedback)
Complexite similaire au mod`ele vectoriel
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
57
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Une generalisation de QL : Kullback-Leibler divergence
retrieval model
RSV(q, d) = KL(
q
||
d
) =
w
P(w|
q
) log
P(w|q)
P(w|
d
)
En developpant :
RSV(q, d) =
rang
w
x
q
w
log P(w|
d
) =
rang
logP(q|
d
)
Cest en general le mod`ele KL qui est implante dans les syst`emes
de recherche dinformation (Lemur, Terrier)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Contenu informatif dun terme
x x x
Inf
1
(t
d
w
) = log P(t
d
w
|
C
)
avec : t
d
w
= x
d
w
log(1 +
m
y
d
) (Second normalization principle - Amati
& Van Rijsbergen)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele DFR (1)
Une version simpliee du mod`ele (qui marche, si lon fait bien les
choses !) - Clinchant & Gaussier
Le score de pertinence est donne par linformation moyenne
apportee par un document sur une requete :
RSV(q, d) =
w
x
q
w
Inf
1
(t
d
w
) =
w
x
q
w
log P(t
d
w
|
C
)
o` u P(t
d
w
|
C
) peut etre appris (maximum de vraisemblance) ou xe
(en general).
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele DFR (2)
Comment choisir P(t
d
w
|
C
) ?
La distribution P doit etre bursty, cest-`a-dire pouvoir rendre
compte du comportement en rafale des mots. En particulier, elle
doit satisfaire :
2
log(P(Tt))
x
2
> 0
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Le mod`ele dindependance binaire
Approche mod`ele de langue
Divergence from Randomness
Mod`ele DFR (2)
Le mod`ele original ne se repose pas sur des distributions bursty et
necessite une nouvelle normalisation (First normalization
principle) :
RSV(d, q) =
wqd
x
q
w
Inf2(t
d
w
)
..
_
1
t
d
w
+ 1
_
Inf1(t
d
w
)
..
_
log Prob
1
(t
d
w
)
_
Mais normalisation ad hoc, peu comprehensible - mod`ele utilise
mais critique
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Comparaison generale
Un grand nombre de collections de test ont ete developpees au sein
des campagnes TREC (trec.nist.gov) et CLEF
(www.clef-campaign.org)
Les performances du mod`ele booleen sont en de c`a de celles
des autres mod`eles
Les mod`eles QL (et ses extensions) et DFR se detachent ces
derni`eres annees et tendent `a simposer dans la communaute
scientique
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
58
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Quelques resultats experimentaux (1)
N M Avg DL # Queries
TREC-3 741 856 668 482 262 50
ROBUST 490 779 992 462 289 250
CLEF03 166 754 80 000 247 60
GIRT 151 319 179 283 109 75
Comparaison sur des collections de test standard (QL-KL et DFR)
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Quelques resultats experimentaux (2)
Tab.: LM-Jelinek-Mercer versus DFR simplie (moyenne sur 10 splits) :
meilleure performance en gras,
dierence statistiquement signicative
MAP ROB-d ROB-t GIRT CLEF-d CLEF-t
LM 26.0 20.7 40.7 49.2 36.5
LGD 27.2
22.5
43.1
50.0
37.5
38.9
69.4
33.6
26.6
25.0
43.1
48.0 37.4
P10 ROB-d ROB-t GIRT CLEF-d CLEF-t
INL 47.7
33.3 27.2
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Quelques resultats experimentaux (4)
Comparaison avec pseudo-relevance feedback
Tab.: meilleure performance en gras,
dierence statistiquement
signicative
with PRF ROB-d ROB-t GIRT CLEF-d CLEF-t
INL+Bo2 29.3 26.4 43.4 48.5 36.0
LGD+PRF 30.9
29.3
47.4
50.4 39.8
Eric Gaussier Mod`eles Probabilistes pour la Recherche dInformation
Plan
Introduction
Les mod`eles classiques (booleens et vectoriels)
Les mod`eles probabilistes
Comparaison experimentale
Conclusion
Conclusion
Le cadre probabiliste est un cadre privilegie pour la recherche
dinformation ad hoc
Il existe en fait de fortes similarites entre les dierents mod`eles
Le choix des distributions et normalisations/lissages est crucial
(une bonne comprehension des interactions entre ces elements
manque encore)
La recherche dinformation sur le web repose sur des mod`eles
en general plus simples, mais dont les param`etres sont appris
| | 1 , 0 e
if
|
i f
Exemple
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 8
image
page
o 1
| 1
| 1 | 1
| 1 | 1 | 1
titre
Au terme dun
matchpique
RaIaelNadal
simpose
Wimbledon
o 2
texte
Lespagnol Rafael
Nadal aremport
Wimbledonpourla
premire fois
o 1
o 0
o 1,6 o 0,8 o 0,8 nouvelle nouvelle nouvelle nouvelle o 0,8
| 0,31
| 0,25
Indexation des blocs
O Textuelleuniquement(pourlemoment)
O Basesurlemodelevectoriel
O Lesblocscontenantdutextesontindexsparun
vecteurappelvecteur local.
O Cesvecteurslocauxsontpropags lelongdesarcsde
permabilit, en tenant compte de limportance des
nuds,pourproduirelevecteur global dechaque
bloc.
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 9
Indexation dun bloc
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 10
|
|
.
|
\
|
+ =
_
=
f
n f
fi Li i i
b b b
& & &
, 1
| o
vecteurglobal
dubloci
importance
dubloci
vecteurlocal
dubloci
permabilit
dubloci a
lindexation
dublocf
nombrede
blocsdela
page
Indexation des blocs dune page
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 11
( )
L
aiag T aiag
J Alpha U Beta Alpha J + =
1
matricedes
permabilits
matricedes
importances
matricedes
vecteursglobaux
matricedes
vecteurslocaux
Interrogation
O Unerequteestreprsenteparunvecteurdans
lespace des termes dindexation.
O Lasimilaritentreunblocb
i
etunerequteq est
calculeparlaIormuleducosinus :
O Larponseaunerequteestunelistedeblocsclasse
parsimilaritdcroissante.
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 12
q b
q b
q b sim
f
f
i
-
= ) , (
63
Points cls
O Segmentationdespages
O Evaluation des coefficients dimportance et de
permabilit
O Indexation
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 13
Segmentation dune page
O Le dcoupage hirarchique dune page en blocs visuels
peut tre produit partir de larbre DOM de cette page.
O Deuxapproches:
1. DcoupagevisuelrcursiI:pardtectiondessparateurs
visuels,onisoleunensembledeblocsetonrelancele
processus rcursivement jusqu obtenir un ensemble de blocs
homogenesrelativementaunensemblederegles.
(algorithmeVIPS,parexemple)
2. Dcoupage produit partir du schma dorganisation des pages
(sicelui-ciestrgulier)etdesinIormationsproduitesparle
moteur de rendu visuel dun navigateur (Gecko de Mozilla,par
exemple).Cest notre choix actuel.
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 14
Evaluation des coefficients
O Lvaluation de limportance dun bloc est
uniquement base surdescritres visuels :aire,
emplacementdanslapage,couleurs,tailledela
Ionte...
O Pouruncorpusdepagesorganisesselonunschma
rgulier,lescoeIIicients et peuventtreappris :
parexemple:R.Songetal.,Learningblockimportance
models Iorwebpages.
ApprentissagedescoeIIicients entreblocstextuelset
image(cI.ci-apres)
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 15
Indexation
O LaIortevariabilitdeslongueursdestextescontenus
danslesblocsposentleproblemeduchoix:
dune variante de tf iaf,
delaIormuledesimilaritentreunblocetunerequte.
O Plusieursstratgiesdepropagation,parexemple:
propagationdetouslestermes(notre choix actuel)
sitouslesblocsIilssontindexsparuntermet onpeut
enlevert desblocsIilsetlepropagerdansleblocpere(cI.
H.CuiandJ.Wen)
O ProblemesdjatudisdanslecadredelaRIdansles
documentsXML(INEX)
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 16
Un moteur dindexation et
dinterrogation
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 17
(P)
Page
web
(D
1
XML)
hirarchie
de blocs
(D
2
)
D
1
+
blocs
annots
(D
4
)
D
3
+
blocs
indexs
XSLT moteur
de rendu
dun
navigateur
XIML
BD
EXIST
Interrogation
par XQuery
tendu
XQuery
tendu
par
oprateurs
de RI plein texte
(D
3
)
D
2
+
blocs tiquets
par +
arcs de
permabilit
tiquets par
(graphe IP)
XIML (XML Indexing Management Language)
est un langage que nous avons conu.
Un programme XIML est un ensemble de rgles
dcrites en XML dont lapplication au document
XML reprsentant la hirarchie de blocs annots (D
2
)
dune page produit le graphe IP de cette page (D
3
).
Exprimentation
O CapacitaretrouverleblocleplusspciIique
contenantunerequte(best entry point):
sur un corpus de pages daccueil de journaux lectroniques
Iranais(1300pages,48000blocs)
O Indexation dimages par permabilit.
surlecorpusdesjournauxlectroniques
sur un corpus issu dune campagne ImagEval
sur un corpus issu dune campagne INEX (en cours)
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 18
64
Indexation dune image par
permabilit : apprentissage des
O ObjectiI:
ApprendrelescoeIIicients entrelesblocstextuelsvoisins
dune image et cette image.
O Corpus:
626imagesdans500pageswebextraitesducorpus
ImagEval, task2 (pageswebdeWikipedia)
53 termes dindexation
chaqueimageestindexemanuellementparunvecteur
dans lespace de ces 53 termes
O
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 19
Indexation dune image par
permabilit : apprentissage des
O OnrecherchelesvaleursdescoeIIicients qui
maximisentcettesimilarit.
O Mthode dapprentissage : gradient stochastique
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 20
a
vecteur obtenu par indexation manuelle de limage
vecteur du bloc contenant limage obtenu par indexation BlockWeb
) cos( ) , ( a manuelle inaexation BlockWeb inaexation sim =
Indexation dune image par
permabilit : apprentissage des
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 21
similarit : 0.35 0,45
titre page plusLoin plusPres
= 0,25
= 0,21
= 0,25
= 0,31
= 0,25
= 0,23
= 0,25
= 0,25
bla bla bla
bla bla bla
bla bla bla
bla bla bla
Travaux en cours et futurs
O Exprimentationsurdescorpusdegrandetaille:
leprobleme:lestrouveroulesconstruire(tresgros
travail !)
O Apprentissage combin des coefficients dimportance
etdepermabilit
O Prise en compte des descripteurs dimages
...
BDA 2009 E.Bruno,N.Faessel,H.Glotin,J.Le Maitre,M.Scholl 22
65
Bernard Merialdo
EURECOM, Sophia Antipolis
Rsum haut-niveau de vido - TRECVid NIST
Cette prsentation s'attachera au problme du rsum de squences audio-visuelles.
Nous traiterons des mthodes gnrales, ainsi que du cas de donnes particulires,
comme les films ou les journaux tlviss. Nous tudierons la question fondamentale de
l'valuation. Enfin, nous donnerons quelques indications sur le rsum multi-vido. Une
partie de ce travail est fait dans le cadre de la campagne d'valuation TRECVID.
66
Multimedia Indexing and
Summarization
ERMITES 2009
Prof. Bernard Merialdo
Institut Eurecom
merialdo@eurecom.fr
Contents
4 TrecVid
Shot Segmentation
Semantic Classification
Video Search
ERMITES 2009 2
Video Search
4 Summarization
Video Sequence Alignment
Automatic Evaluation
Video Indexing
Scenes
Shots
ERMITES 2009 3
Keyframes
Camera movements
Objects / events
Text / captions
TrecVid
4 Evaluation campaign organized by NIST
(National Institute of Standards, USA)
4 Purpose: compare video retrieval algorithms on
same data and tasks
4 Started in 2001 as a track of TREC
ERMITES 2009 4
4 Started in 2001 as a track of TREC
4 Independant campaign from 2003
4 Participants:
2001 2002 2003 2004 2005 2006 2007 2008
12 17 24 33 41 54 54 77
TrecVid Data
Year Hours of video
(training/test)
Type
2001 11 NIST videos
2002 73 Internet Open Archive
2003 66/67 TV News (ABC, CNN, CSPAN)
2004 0/70 TV News (ABC, CNN, CSPAN)
2005 85/85 TV News (+arabic, chinese)
2006 0/158 TV Ne s (+arabic chinese)
ERMITES 2009 5
2006 0/158 TV News (+arabic, chinese)
50 BBC Rushes
2007 50/50 Sound and Vision (dutch)
18/17 BBC Rushes
2008 100/100 Sound and Vision (dutch)
35/18 BBC Rushes
200 Surveillance (Gatwick airport)
2009 100/280 Sound and Vision (dutch)
53/20 BBC Rushes
150 Surveillance (Gatwick airport)
TrecVid Tasks
4 Shot Boundary Determination 2001-2007
4 Search 2001-2009
4 High-Level Feature Extraction 2002-2009
St i 2003 2004
ERMITES 2009 6
4 Stories 2003-2004
4 BBC Rushes 2005-2008
4 Camera motion 2006
4 Surveillance (event detection) 2008-2009
4 Copy detection 2008-2009
67
Shot Segmentation
4 A shot is a continuous take from one camera
4 The transition from one shot to the next can be
a hard cut or a gradual transition
4 Hard cuts can generally be easily detected:
ERMITES 2009 7
4 Gradual transitions span over several frames
4 There are many types of gradual transitions
based on different visual effects
Shot Segmentation
4 Dissolve
Special case: fade in fade out
ERMITES 2009 8
Special case: fade-in, fade-out
4 Wipe
Color Histogram: per keyframe
ERMITES 2009 9
Color Histogram: region-based
4 Split the image into regions, concatenate the
region histograms
1 2
ERMITES 2009 10
1 2
3 4
1 2 3 4
Hard Cut Detection
4 Measure distance between consecutive frames,
detect cut if greater than threshold.
4 Common: color histogram
+
) ,I d(I
1 t t
+ +
=
c
1 t t 1 t t
(c) h (c) h ) ,I d(I
ERMITES 2009 11
Cut Detection: Gradual Transitions
4 Sliding window:
Compare pre and post frames with current frame f
ERMITES 2009 12
Compare pre- and post- frames with current frame f
c
Compute PrePostRatio:
Peak of PrePostRatio = end of gradual transition
=
PostFrames f
c
PreFrames f
c
) f d(f,
) f d(f,
io PrePostRat
68
Cut Detection: Gradual Transitions
4 Dissolve between shot A and shot B:
Pre-frames Current frame Post-frames
A A A A A A
A A A
A A A A A A
A A A A A A A
B B B
B B B
A A A A A A A B B B B B B
A A A B B B B B B
A
B
PrePostRatio
minimal
slowly rising
steeply rising
maximum
ERMITES 2009 13
4 PrePostRatio is usually minimal at the
beginning of a gradual transition and rises up to
a maximum at the end of the transition
B B B B B B
B B B A A A B B B B B B
A B B B B B B
B
maximum
falling
Gradual Transition Detection (RMIT)
5
6
7
ERMITES 2009 14
0
1
2
3
4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Pre-distance Post-distance Pre-post ratio
Cut detection: difficult cases
4 Similar environment
ERMITES 2009 15
Change in camera position
Same color ambiance
Cut is difficult to detect
Cut detection: difficult cases
4 Fast movement of large object
ERMITES 2009 16
Can be confused with wipe
Shot can be over-segmented
Cut detection: difficult cases
4 Sudden change in illumination
ERMITES 2009 17
Sudden modification of colors
Also the case in explosions, etc
Shot can be over-segmented
Cut detection: ambiguous cases
4 Inserts
ERMITES 2009 18
4 Interview edit
1 2 3 4 5 6
1 2 5 6
69
TrecVid: Shot Boundary Determination
4 2007 Results:
17 news videos, 2463 transitions
Cuts Gradual transitions
zoomed
ERMITES 2009 19
TrecVid: High Level Feature Extraction
4 Task: decide if a shot contains a given concept
or not
4 Objective: build generic concept detectors
4 Method:
Assume high level feature is binary (contains or not
ERMITES 2009 20
Assume high level feature is binary (contains or not
contains)
Rank shots with concept by confidence
Return best 2000 shots for each feature
Manual assessment by NIST (on 20 features)
Compute Mean Average Precision (MAP) or Inferred
Average Precision (IAP)
High Level Feature Topics
2002 2003 2004 2005 2006 2007 2008 2009
outdoors
indoors
face
people
cityscape
landscape
text overlay
speech
instrumental
sound
monologue
outdoors
news subject
face
people
building
road
vegetation
animal
female speech
car/truck/bus
aircraft
boats / ships
Madeleine
Albright
Bill Clinton
trains or
railroad
cars
beach
basket score
airplane
taking off
people
walking
/running
explosion or
fire
map
US flag
building
exterior
waterscape/
waterfron
sports
weather
office
meeting
desert
mountain
Waterscape
/waterfront
corporate
leader
police security
sports
weather
office
meeting
desert
mountain
waterscape/
waterfront
police
security
military
classroom
bridge
emergency
vehicle
dog
kitchen
airplane flying
two people
bus
driver
cityscape
classroom
chair
infant
traffic intersection
doorway
airplane flying
person playing a
musical
instrument
bus
person playing
ERMITES 2009 21
news subject
monologue
non studio
setting
sporting event
weather news
zoomin
physical
violence
Madeleine
Albright
people
walking or
running
physical
violence
road
t
mountain
prisoner
sports
military
personnel
animal
computer tv
screen
us flag
airplane
car
truck
people
marching
explosion fire
maps
charts
personnel
animal
computer tv
screen
us flag
airplane
car
truck
boat/ship
people
marching
explosion
fire
maps
charts
harbor
telephone
street
demonstration
or protest
hand
mountain
nighttime
boat ship
flower
singing
soccer
cityscape
person riding a
bicycle
telephone
person eating
demonstration or
protest
hand
people dancing
nighttime
boat ship
female human face
closeup
singing
TrecVid: High Level Feature Extraction
4 2007: 20 concepts evaluated
4 Overall results by feature (top 10 runs):
ERMITES 2009 22
TrecVid: High Level Feature Extraction
4 2008: 20 concepts evaluated
4 Overall results by feature (top 10 runs):
ERMITES 2009 23
TrecVid: HLF Architecture
4 Generic concept detector:
Training Data
ERMITES 2009 24
Feature
Extraction
Supervised
Learner
Training
Feature
Measurement
Classification
Testing
Examples
Aircraft (p = 0.7)
70
TrecVid: HLF Training data
4 Training data
4 Collaborative annotation by TREC participants
(wait Georges presentation)
ERMITES 2009 25
TrecVid: HLF Training data
4 Training data
4 LSCOM : Large Scale Concept Ontology for
Multimedia
Project by Columbia U, IBM, CMU
856 concepts designed for TV News
ERMITES 2009 26
p g
Events, locations, people, programs
Manual annotation of TV2005 videos for 449
concepts (61901 shots)
Useful for large scale experiment and cross-concept
correlations
TrecVid: HLF Low-level Features
4 Image features
Color histogram
Texture
Edge
4 Audio features
FFT
MFCC
ERMITES 2009 27
MFCC
4 Motion features
Kinetic energy
Optical flow
4 Specific detectors
Face detection
Video-OCR detection
Music/singing/speech
TrecVid: HLF Low-level Features
4 BoW Bag-of-Words feature
ERMITES 2009 28
TrecVid: High Level Feature Extraction
4 Classifiers:
SVM Support Vector Machines
GMM Gaussian Mixture Models
NN Neural Networks
ERMITES 2009 29
NN Neural Networks
K-NN Nearest Neighbours
Adaboost
Etc
TrecVid: High Level Feature Extraction
4 Many features, many classifiers, but not one
better than all others
4 Need to combine all information to build best
system: information fusion
ERMITES 2009 30
4 Several approaches:
Early fusion of feature vectors
Late Fusion of classifier decisions
71
TRECVID: IBM 2008 HLF System
ERMITES 2009 31
EURECOM 2009 Runs
ERMITES 2009 32
HLFE 2009 Results
0,1
0,15
0,2
0,25
ERMITES 2009 33
-0,15
-0,1
-0,05
0
0,05
A
_
M
M
.
L
u
k
e
_
1
A
_
P
K
U
-
I
C
S
T
-
H
L
F
E
-
3
_
3
A
_
F
T
R
D
-
H
L
F
-
5
_
5
A
_
v
ir
e
o
.
d
a
s
d
2
0
s
c
o
r
e
_
3
A
_
v
ir
e
o
.
lo
c
a
l g
lo
b
a
l_
5
A
_
T
I
T
G
T
-
F
u
s
io
n
-
S
c
o
r
e
-
1
_
2
A
_
P
ic
S
O
M
.
s
p
e
c
-
a
n
y
_
5
A
_
E
u
r
e
c
o
m
_
r
e
r
a
n
k
2
_
3
A
_
L
I
G
_
R
U
N
1
_
1
A
_
I
R
I
M
_
R
U
N
4
_
4
A
_
T
s
in
g
h
u
a
U
-
I
M
G
_
2
A
_
I
R
I
M
_
R
U
N
5
_
5
A
_
T
I
T
G
T
-
G
a
T
e
c
h
-
F
t
r
_
5
A
_
C
M
U
5
_
5
A
_
L
I
F
_
R
U
N
1
_
1
A
_
C
M
U
3
_
3
A
_
L
I
F
_
R
U
N
4
_
4
A
_
U
C
3
M
_
2
_
1
A
_
I
U
P
R
-
V
W
-
T
V
_
6
C
_
I
U
P
R
-
V
W
+
T
T
-
T
V
_
5
A
_
U
C
3
M
_
5
1
_
6
A
_
I
V
A
_
N
L
P
R
_
I
A
_
C
A
S
2
_
2
A
_
I
U
P
R
-
A
D
A
P
T
-
T
V
_
4
A
_
S
J
T
U
_
I
C
I
P
_
L
a
b
3
1
7
_
1
A
_
C
M
U
1
_
1
A
_
S
J
T
U
_
I
C
I
P
_
L
a
b
3
1
7
_
4
A
_
U
K
A
_
g
l_
2
A
_
B
U
P
T
-
M
C
P
R
L
_
S
y
s
3
_
3
c
_
I
U
P
R
-
V
W
-
Y
T
_
3
A
_
I
T
I
-
C
E
R
T
H
-
3
_
3
A
_
F
Z
U
_
r
u
n
4
_
4
A
_
U
C
F
_
R
E
U
_
4
A
_
T
I
T
G
T
-
T
it
e
c
h
-
2
_
6
A
_
I
R
I
T
_
A
V
_
P
o
l y
_
3
A
_
U
C
F
_
R
E
U
_
5
A
_
u
z
a
y
.
s
y
s
3
_
3
A
_
F
Z
U
_
r
u
n
3
_
3
A
_
X
J
T
U
_
6
_
6
A
_
a
s
a
h
ik
a
s
e
5
_
5
A
_
L
S
I
S
_
s
v
m
_
ld
a
_
P
E
F
_
2
A
_
T
s
in
g
h
u
a
U
-
M
P
A
M
_
2
A
_
U
K
A
_
a
ll_
o
p
p
_
5
A
_
N
H
K
S
T
R
L
6
_
6
A
_
N
H
K
S
T
R
L
1
_
1
A
_
L
S
I
S
_
s
v
m
_
ld
a
_
I
R
I
M
f
e
a
t
_
1
TrecVid: Search Task
4 Goal: find the shots satisfying a query
4 Queries are defined by text + sample
keyframes + sample shots
4 2009 Topic examples:
Topic 0269: Find shots of a road taken from a moving vehicle through
ERMITES 2009 34
p g g
the front window
Topic 0270: Find shots of a crowd of people, outdoors, filling more
than half of the frame area
Topic 0271: Find shots with a view of one or more tall buildings (more
than 4 stories) and the top story visible
Topic 0291: Find shots of a train in motion, seen from outside
Topic 0292: Find shots with the camera zooming in on a person's face
TrecVid: Search Task
4 Topic examples
Find shots of a hockey rink with at
least one of the nets fully visible from
some point of view.
Find shots of one or more helicopters
in flight.
ERMITES 2009 35
Find shots of a group including at
least four people dressed in suits,
seated, and with at least one flag.
Find shots of an office setting, i.e.,
one or more desks/tables and one or
more computers and one or more
people
TrecVid: Search Task
4 3 types of experiments:
Fully Automatic:
Manually Assisted:
Topic System Result
ERMITES 2009 36
Interactive:
Topic System Result Human query
Topic System Result Human query
72
TrecVid: IBM IMARS Search System
ERMITES 2009 37
TrecVid: MediaMill Search System
4 101 concept detectors
ERMITES 2009 38
TrecVid: MediaMill Search System
ERMITES 2009 39
TrecVid: DCUSearch System
ERMITES 2009 40
VideOlympics
4 Organized at CIVR 2007-2008-2009
Parallel public use of search systems
Comparative live panel of shots found
ERMITES 2009 41
TRECVID BBC Rushes summarization task
4 Rushes from BBC archive
Unedited material from dramatic series
ERMITES 2009 42
* http://www-nlpir.nist.gov/projects/trecvid/
73
TRECVID BBC Rushes summarization task
4 Summarization task
Create an MPEG-1 summary of each file
Eliminate redundancy
Maximize viewers efficiency at recognizing objects & events as
quickly as possible
Interaction limited to simple playback with optional pauses
ERMITES 2009 43
TRECVID BBC Rushes summarization task
4 2005: no task
4 2006: organize, no evaluation
4 2007: summarize, evaluate
List of topics and events built for ground truth
4% summary is built for each video
ERMITES 2009 44
Evaluator watches summary and counts topics
present
4 2008: summarize, evaluate
2% summary is built for each video
Evaluator watches summary and counts topics
present
4 2009: discontinued
Rushes Video Structure
4 A rushes video contains:
4 Junk frames
Test bar patterns
Junk recordings, irrelevant shots
4 Scenes
ERMITES 2009
4 Scenes
Recordings of a prepared action
A scene contains several takes
Each take is a tentative recording for the action
A take generally starts with a clapboard
45
Scene 1 Scene 2
Junk Take 1 Take 2 Take 3 Junk Take 1 Take 2
Junk Frames
4 Examples of junk frames
4 Generally easy to model and detect
ERMITES 2009 46
Clapboards
4 More difficult to model, not reliably detected
ERMITES 2009 47
Summarization Evaluation
4 Ground truth : human annotation of visible topics
4 Sample for MRS044500 :
2 men in dark suits walk past Ford truck to building entrance
2 men in dark suits enter building
person in brown coat opens rear end car and removes wheelchair
(seen from front of car)
woman walks around car to passenger window (seen from rear end of
car)
close p of man in passenger seat (seen from front of car)
ERMITES 2009 48
close up of man in passenger seat (seen from front of car)
woman in brown coat removes wheelchair and brings it round to the
passenger door (seen from front of car)
man in beige suit appears (seen from front of car)
man in beige suit opens car door (seen from front of car)
woman in brown jacket undoes man in car's seatbelt (seen from front
of car)
woman in brown jacket helps passenger into wheelchair (seen from
front of car)
74
Summarization Evaluation
4 Evaluation :
For each video, 12 topics are selected at random
Evaluator watches summary (with pauses)
Checks which topics (out of 12) are present
Various measures:
Fraction of (12 items of) ground truth found
Ease of use
ERMITES 2009 49
Ease of use
Amount of near-redundancy
Assessment time to judge included ground truth
Summary duration
Summary creation compute time
Number/duration of pauses in assessment of included
segments
Feedback on assessment software, procedure, experience
Summarization Evaluation
Video
Clay vase and bowl hang on wall
Pile of jugs
Close up of larger clay bowl and two smaller
ones
Clay objects on floor; standing vertically in
corner by window
Two men walk out from doorway; exit left
Clay vessels of various sizes on wooden
benches
Closeup of clay vessels with handles at left end
of shelf
Pan right from clay vessels with handles
Camera looks up and down to view pots on both
sides of wooden fence
Clay pot with grass hanging out of it
Four women (full view) dance in a circle
Camera tilts down to legs (knees down) of
women dancing
Randomly Selected
Topics
Bearded man (shoulders up) in helmet; takes off helmet; talks;
exits left
Man (shoulders up) holds clay pot talks; exits left
Clay vase and bowl hang on wall
Four clay pitchers
Camera pans right to stack of three clay bowls and another
beside on shelf
Closeup of stack of 3 bowls and half another
View of just one vase hanging on wall
Pile of jugs
Clay vessel with pointed bottom, hanging from spike on wall
Close up of pointed bottom of vase
Camera scans up from pointed bottom of vessel to spike on
wall
Bowls, rock?, and other clay objects on table; shelf behind
Two shelves with clay objects
Camera looks down from 2 shelves to clay objects on table
Close up of larger clay bowl and two smaller ones
Camera pans right, viewing two shelves with clay pots
Clay objects on floor; standing vertically in corner by window
Camera zooms in on clay objects stacked in corner by window
Camera looks up from floor viewing stacked clay vessels
Doorway to house with stone walls and pots outside
Two men walk out from doorway; exit left
Close up of 2 clay vessels (one orange, one grey) on wooden
shelf
Camera pans left past clay vessels on wooden shelf
Clay vessels of various sizes on wooden benches
Camera zooms in on small caly vessels with handles and
ERMITES 2009 50
Summary
Ground Truth
Assessors
spouts
Closeup of small clay vessels (no handles) at left end of shelf
Closeup of clay vessels with handles at left end of shelf
Pan right from clay vessels with handles
Close up bowl on pedestal
Closeup of bowl with sun/flower design in middle
Zoom out from bowl on pedestal
Clay pots on both sides of wooden fence;
Camera looks up and down to view pots on both sides of
wooden fence
Clay pot with grass hanging out of it
Four women (full view) dance in a circle
Y/N
Y/N
Y/N
Eurecom 2008 Summarization system
ERMITES 2009 51
Eurecom Segment Selection
4 Bottom-up Hierarchical clustering
Initially : one cluster per one-second segment
Iterations: merge closest clusters
Feature vectors: HSV histograms
Distance between two segments : Euclidian distance
Di t b t t l t di t
ERMITES 2009
Distance between two clusters : average distance across
all possible pairs of segments
Allows to tune classification coarseness
52
Eurecom Segment Selection
4 We want to avoid selecting similar segments
4 Similarity level depends on video:
Sometimes video content is very diverse
Sometimes video is quite static
4 Selecting different levels of the hierarchy allows various
levels of similarities
ERMITES 2009 53
Coarser similarity
Finer similarity
Video Sequence Alignment
4 Idea: adapt Smith-Waterman algorithm for local
alignment of protein sequences
4 A kind of edit distance, but with subsequences
Compute a dynamic programming score matrix
between video segment sequences:
Each one-second segment is represented by an
ERMITES 2009
Each one-second segment is represented by an
average histogram feature vector
The substitution cost is:
cos(i,j)+1 if both segments are in the same
cluster,
cos(i,j)-2 if not
The insertion and deletion costs are -3
The score is thresholded to 0 so that local
alignments appear as paths with positive costs
Diagonal is set to 0
54
75
Video Sequence Alignment
4 Start with finest hierarchical classification
4 Compute score matrix
4 Iterate:
Collect all sub-sequence alignments with score
greater than threshold
F di f t i
ERMITES 2009
Freeze corresponding area of score matrix
Set hierarchical classification to coarser
Update score matrix
4 Final output:
Ranked list of subsequence alignments
Normalize by alignment length
55
Scene Detection
4 Alignment matrix:
A[f
i
][f
j
] = rank of alignment containing pair f
i
f
j
Alignment score for each one-second segment pair
A is small (black): similar segments
A is large (white): dissimilar segments
4 Scene detection:
A scene is a sequence of takes
ERMITES 2009
A scene is a sequence of takes
Takes from same scene are
similar sequences
Takes from different scenes
should be dissimilar
A scene should be a low A-value square around the
diagonal
56
Scene Detection
4 Recursive selection of the upper right rectangle with
largest average A-value
Max rect(f)
4 Result: segmentation into scenes
[ ][ ]
=
=
=
=
=
=
=
=
=
f f
f
T f
f f
f f
f
T f
f f
2 1
1
1
2
2
1
1
2
2
1
f f A
rect(f)
1
1
ERMITES 2009 57
Take Selection
4 Inside a scene, the various takes should be
aligned subsequences
4 Some takes are only partial alignments
Wrong actor action
Unexpected event
ERMITES 2009
p
Problem in recording
4 A take should not be aligned with itself
4 The longest subsequence should be a
complete take of the scene: it is selected as the
representative take
58
Alignement Evaluation: Ground Truth
4 14 manually annotated videos (6 dev / 8 test)
ERMITES 2009 59
Alignment Evaluation
4 Precision/Recall on aligned segment pairs
ERMITES 2009 60
76
Alignment Evaluation
4 VSA: segment pairs correctly aligned
4 SD: segment pairs correctly in same scene
ERMITES 2009 61
Eurecom Presentation
4 2007 Split-scren display
Maximize information
displayed by time unit
Group shots by 4
4 2008
Main frame
Timeline
Icons for keyframe
summary
ERMITES 2009 62
K-Space Collaborative Summarization
4 K-Space NoE:
Partners involved:
JRS-EUR-TUB-GET-QMUL-DCU
4 2-step process:
GET
Segmentation
Fusion
Video Sequence
TUB
Segmentation
Eurecom
Sub-Segmentation
Eurecom
Segmentation
JRS
Segmentation
Common Segmentation
ERMITES 2009
Segmentation
Selection
4 Fusion of partners
proposals
JRS Selection
Fusion
DCU Video Summary Generation
JRS Redundant
Segments
JRS Selected
Segments
QMUL Selected &
Redundant Segments
Eurecom Selected &
Redundant Segments
Common Selection
Common Segmentation
63
TRECVID Summarization Evaluation
4 2007 Comparative results:
Good on inclusions
Low on usability
0.65
0.7
Fraction of inclusions found in the summary
Eurecom mean
3.4
3.6
Was the summary east to understand (1-5)
Eurecom mean
ERMITES 2009 64
0.2
0.25
0.3
0.35
0.4
0.45
0.5
0.55
0.6
u
s
h
e
ff
u
m
a
d
r
id
u
g
la
s
g
o
w
u
c
a
l
th
u
-
ic
r
c
n
tu
n
ii
lip
6
k
d
d
ie
ta
l
jo
a
n
n
e
u
m
h
u
t
h
k
p
u
fx
p
a
l
e
u
r
e
c
o
m
d
c
u
c
u
r
tin
c
o
s
t2
9
2
c
o
lu
c
m
u
c
ity
u
b
r
n
o
a
ttla
b
s
C
M
U
B
A
S
E
2
C
M
U
B
A
S
E
1
M
e
a
n
Participants
1.8
2
2.2
2.4
2.6
2.8
3
3.2
u
s
h
e
ff
u
m
a
d
r
id
u
g
la
s
g
o
w
u
c
a
l
th
u
-
ic
r
c
n
tu
n
ii
lip
6
k
d
d
ie
ta
l
jo
a
n
n
e
u
m
h
u
t
h
k
p
u
fx
p
a
l
e
u
r
e
c
o
m
d
c
u
c
u
r
tin
c
o
s
t2
9
2
c
o
lu
c
m
u
c
ity
u
b
r
n
o
a
ttla
b
s
C
M
U
B
A
S
E
2
C
M
U
B
A
S
E
1
M
e
a
n
Participants
TRECVID Summarization Evaluation
4 2008 Comparative results:
Not so good on inclusions
Fair on usability
Surprizing results for baseline
Fraction of inclusions
0,8
0,9
Summary was pleasant
3,5
4
ERMITES 2009 65
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
A
T
T
Labs.1_D
U
A
T
T
Labs.2_D
U
B
U
_F
H
G
.1_D
U
B
rno.1_D
U
C
M
U
.1_D
U
C
M
U
.2_D
U
C
O
S
T
292.1_D
U
D
C
U
.1_D
U
D
C
U
.2_D
U
E
T
IS
.1_D
U
E
U
R
E
C
O
M
.1_D
U
F
X
P
A
L.1_D
U
F
X
P
A
L.2_D
U
G
M
R
V
-U
R
JC
.1_D
U
G
T
I-U
A
M
.1_D
U
G
T
I-U
A
M
.2_D
U
IR
IM
.1_D
U
IR
IM
.2_D
U
JR
S
.1_D
U
JR
S
.2_D
U
K
-S
pace.1_D
U
K
-S
pace.2_D
U
N
H
K
S
T
R
L.1_D
U
N
II.1_D
U
N
II.2_D
U
P
icS
O
M
.1_D
U
P
olyU
.1_D
U
Q
U
T
_G
P
.1_D
U
R
E
G
IM
.1_D
U
S
heffield.1_D
U
T
okyoT
ech.1_D
U
U
E
C
.1_D
U
U
G
.1_D
U
U
P
M
C
-LIP
6.1_D
U
V
IR
E
O
.1_D
U
V
IV
A
-LIS
T
IC
.1_D
U
V
IV
A
-LIS
T
IC
.2_D
U
asahikasei.1_D
U
cm
ubase3.1_D
U
ipan_uoi.1_D
U
nttlab.1_D
U
thu-intel.1_D
U
thu-intel.2_D
U 0
0,5
1
1,5
2
2,5
3
A
T
T
Labs.1_D
U
A
T
T
Labs.2_D
U
B
U
_F
H
G
.1_D
U
B
rno.1_D
U
C
M
U
.1_D
U
C
M
U
.2_D
U
C
O
S
T
292.1_D
U
D
C
U
.1_D
U
D
C
U
.2_D
U
E
T
IS
.1_D
U
E
U
R
E
C
O
M
.1_D
U
F
X
P
A
L.1_D
U
F
X
P
A
L.2_D
U
G
M
R
V
-U
R
JC
.1_D
U
G
T
I-U
A
M
.1_D
U
G
T
I-U
A
M
.2_D
U
IR
IM
.1_D
U
IR
IM
.2_D
U
JR
S
.1_D
U
JR
S
.2_D
U
K
-S
pace.1_D
U
K
-S
pace.2_D
U
N
H
K
S
T
R
L.1_D
U
N
II.1_D
U
N
II.2_D
U
P
icS
O
M
.1_D
U
P
olyU
.1_D
U
Q
U
T
_G
P
.1_D
U
R
E
G
IM
.1_D
U
S
heffield.1_D
U
T
okyoT
ech.1_D
U
U
E
C
.1_D
U
U
G
.1_D
U
U
P
M
C
-LIP
6.1_D
U
V
IR
E
O
.1_D
U
V
IV
A
-LIS
T
IC
.1_D
U
V
IV
A
-LIS
T
IC
.2_D
U
asahikasei.1_D
U
cm
ubase3.1_D
U
ipan_uoi.1_D
U
nttlab.1_D
U
thu-intel.1_D
U
thu-intel.2_D
U
Automating TRECVID Evaluation
4 TRECVID 2007-2008 : manual evaluation
Random list of 12 topics from groundtruth is selected
Assessor views the summary, checks topics that are present
Performance indicators are computed
4 Problem:
Manual evaluation is difficult to implement and to reproduce
Difficult to make lots of experiments (tune parameters)
ERMITES 2009 66
Difficult to define groundtruth summary
4 Our solution:
We developed an automatic evaluation method
Idea:
The appearances of each topics are time-stamped
If one second of the topic is in the summary, the topic is considered
to be found
Strong correlation between automatic and manual method
Admissible for comparing results
77
Automating TRECVID Evaluation
4 8 Test Videos from 2008
4 Summaries from 10 different systems
4 Manual annotation:
Topics from TrecVid
Timestamps manually added:
T t t t t t t
ERMITES 2009 67
T
1
t
11
t
12
t
13
t
14
t
15
t
16
T
2
t
21
t
22
t
23
t
24
4 Performance measures:
selected segments of number
found topics of number
Precision
topics of number
found topics of number
Recall
=
=
Automating TRECVID Evaluation
4 For each topic, build a feature vector from
ground truth and summary, and try to predict
assessment
#seq min max mean
4 7 103 56
Topic video #seq min max mean activity entropy
1 MRS044500 4 95 1524 805 0 322 3 324
A
k
Yes
GT vs video GT vs Summary Assessment
ERMITES 2009 68
4 Use various 32 classifiers from WEKA toolkit
4
1
7
0
103
26
56
8
1
2
MRS044500
MRS044500
4
3
95
155
1524
210
805
180
0.322
0.317
3.324
4.905
No
Modeling
and
Prediction
Automating TRECVID Evaluation
4 Compare prediction X with real assessment Y
4 Pearson correlation coefficient (reflects the
degree of linear relationship between two
variables).
) , cov( Y X
r =
ERMITES 2009 69
4 Results evaluated:
To predict topic
To predict IN value
To predict Rank
) ( * ) ( Y J X J
Evaluation results
4 Pearson correlation coefficient between human
and automatic
ERMITES 2009 70
Best Decision Stumps classifiers
Longest topic
sequence in the
Mean length of
topic sequence
Mean length of
topic sequence
Number of topic
sequence in the
50% 27% 22% 1%
ERMITES 2009 71
sequence in the
summary
topic sequence
in the summary
topic sequence
in the summary
sequence in the
summary
Presence Absence Presence Absence Presence Absence Presence Absence
Assessor correlation
Assessor Topic IN Ranking
Assessor 1 0,756 0,879 0,915
Assessor 2 0,789 0,876 0,918
Assessor 3 0,771 0,871 0,911
Assessor 4 0,775 0,860 0,896
A 5 0 790 0 866 0 898
ERMITES 2009 72
Assessor 5 0,790 0,866 0,898
Assessor 6 0,751 0,805 0,833
Assessor 7 0,716 0,781 0,825
Assessor 8 0,703 0,804 0,811
Assessor 9 0,727 0,856 0,893
Assessor 10 0,791 0,902 0,926
DecisionStumps 0,535 0,876 0,913
78
Internet Multi-Video Summarization
4 RPM2 national project (ANR)
4 Partners:
Syllabs : natural language
U. Avignon: text + audio
Eurecom: video
ERMITES 2009
Eurecom: video
Wikio.fr: data provider and user tests
4 Objective:
Multimedia summaries of multi-documents articles
73
Wikio.fr Web site
4 News aggregator
4 Collect news
information from
various sites
4 Categorize/gather
ERMITES 2009
4 Categorize/gather
4 Allow to have more
general view of a
current topic
4 Contains text, video
74
Multi-Videos Example
ERMITES 2009 75
Multi-Videos Example
ERMITES 2009 76
Multi-Videos Example
ERMITES 2009 77
Multi-Video Summarization
4 Single video case: maximize visual content
) , (
) , (
1
) , (
J S Content S
f i Sim
J
J S Content
J f
S i
Argmax
max
=
=
ERMITES 2009
4 Multi-video case: maximize average visual
content
78
) , (
S
g
n
n
i
i
J S Content J S Content
/ 1
1
) , ( ) , (
=
=
79
Multi-Video Summarization
4 Summary length: use MDL (Minimum
Description Length) criterion
[ ] ) ( . ) , ( max S length K J S Content
S
ERMITES 2009 79
Multi-Video Summarization
4 Maximal Marginal Relevance principle:
Iteratively add the most significant element
For documents:
) ,D (D Sim ) ( ,Q) (D Sim S D
f i
S D
i
RS D
MMR
f
i
2 1
1 ) (
= max Argmax
ERMITES 2009
For videos:
{ }
(f,g) Sim ) ( (f,J) Sim S f
J J J J
S g
RS f
MMR
N
2 1
2 1
1 ) (
,... ,
=
=
max Argmax
J
J g J g
J g
(f,g) Sim (f,g) Sim
J
(f,g) Sim (f,J) Sim
/ 1
2 2 2 1
1
or or max
80
Multi-Video Summarization
4 Video-MMR: Summary most similar to all others