Professional Documents
Culture Documents
Dpartement dinformatique
MEMOIRE
Option
Par
NEMOUCHI Soulef
DEVANT LE JURY
: , , ,
, .
i
ABSTRACT
The main goal of our study is to address the problem of automatic recognition of
Arabic handwritten by statistic methods. We have found that the major problem of the
automatic reading of cursive manuscript characters is the segmentation in elements. In
this case we are interested by the global approach with avoiding the problem of
segmentation.
The chosen classical methods, said statistical are efficient. But they cant be applied
just for writing with limited vocabulary, in the case of a system with training phase.
We include that the performance of system for the recognition of Arabic handwritten
words depends of all recognition phases; from acquisition to classification. We have
oriented our research to approaches based fuzzy logic concepts: implementation of
FCM algorithm for automatic classification of Arabic handwritten words, trying to
find solutions to disadvantage of K-means algorithm, and to obtain more preferment
results. We have implemented a KNN algorithm, this one necessitate no hypotheses
in the form of training classes. However it necessitates a great number of
observations. In addition, it has been greatly used in handwritten recognition. The last
classifier chosen is the PNN network; this type of network is generally used for
classification problems. Their results are combined then using two methods of
combination.
ii
RESUME
Lobjectif de notre travail de recherche est dadresser la problmatique de la
reconnaissance automatique de lcriture arabe manuscrite par les mthodes
statistiques. Nous avons trouv que le problme majeur de la lecture automatique de
caractres manuscrits cursifs tant la segmentation d'un trac en lments
constituants, dans ce cadre, nous nous sommes intresss lapproche globale en
vitant le problme de segmentation.
Les mthodes classiques choisies, dites statistiques, sont efficaces mais ne peuvent
sappliquer qu des critures vocabulaire restreint dans le cadre dun systme avec
une phase dapprentissage. Nous constatons que la performance dun systme de
reconnaissance optique de lcriture arabe manuscrite dpend de toutes les phases du
processus de reconnaissance depuis lacquisition jusqu la classification. Nous avons
mis laccent sur deux phases les plus tudies dans les travaux existants : lextraction
des primitives et la classification. Nous avons orient notre recherche vers les
approches bases sur les concepts de la logique floue : application de lalgorithme
FCM pour la classification automatique des mots arabe manuscrit, en essayant ainsi
de trouver des solutions aux inconvnients de lalgorithme classique K-Means, et
dobtenir des rsultats plus performants. Nous avons implment aussi lalgorithme
KPPV, ce dernier ne ncessite aucune hypothse sur la forme des classes
dapprentissage par contre, il ncessite un grand nombre dobservations pour tre
prcis. De plus il a t beaucoup utilis en reconnaissance de lcriture manuscrite. Et
le dernier classifieur choisi, cest le rseau PNN ; ce type de rseaux est gnralement
utilis pour des problmes de classification. Leurs rsultats sont ensuite combins
en utilisant deux mthodes de combinaison sans apprentissage : la mthode de vote
simple et celle de la somme pondre.
iii
Ddicace
iv
REMERCIEMENTS
Enfin, mes remerciements vont tous les membres de ma famille qui mont tant
soutenue, particulirement mes parents pour leur soutien moral et pour leur
encouragement durant ma priode de scolarit. A mes surs surtout Fatiha et
Nadia pour leur aide, mes petites Lina et Aya. Merci tous ceux qui ont contribu
de prs ou de loin llaboration de ce travail.
v
Liste des Tableaux
Tableau Titre Page
Tableau 1.1 Avantages et inconvnients des lapproches globale et analytique 13
Tableau 3.1 Alphabet Arabe 41
Tableau 3.2 Hamza et Madda et les positions quelles occupent en association 41
avec Alif, Waw et Ya
Tableau 3.3 Diffrents formes dun caractre arabe 42
Tableau 3.4 Exemple de mots composs de la droite vers la gauche de 1, 2, 3,4 et 43
5 PAWs respectivement
Tableau 3.5 Le PAW dans diffrents mots et diffrentes positions 43
Tableau 3.6 Tableau rcapitulatif prcisant les caractristiques et les performances 50
de certains systmes AOCR (approche globale
Tableau 4.1 Taxonomie des mthodes dextraction de caractristiques selon la 64
reprsentation de limage
Tableau 4.2 Taxonomie des caractristiques selon la mthode de classification 65
Tableau 4.3 Les Diffrents Type Des Points Diacritiques 71
Tableau 4.4 Description globale des noms de wilayas en mots 77
Tableau 4.5 Taux de reconnaissance obtenue en faisant varier le coefficient flou 82
m et en utilisant les caractristiques de zonage
Tableau 4.6 Taux de reconnaissance obtenue en faisant varier le coefficient flou 82
m et en utilisant les caractristiques de freeman.
Tableau 4.7 Taux de reconnaissance obtenue en faisant varier le coefficient flou 82
m et en utilisant les caractristiques de moment de Zernike
Tableau 4.8 Rsultats de classification simple (a,, d) 87
Tableau 4.9 Rsultats de combinaison des classifieurs 88
Tableau 4.11 . Linfluence de paramtre K sur le rsultat de la classification KPPV 89
Tableau 4.12 Rsultats de K-means sans dcoupage de vocabulaire 89
vi
Liste des Figures
Figure Titre Page
Figure 1.1 Rand Tablet ou Grafacon 9
Figure 1.2 Diffrents types dcritures 14
Figure 1.3 Styles dcritures selon TAPPERT 15
Figure 1.4 Graphe de complexit des systmes de RAED daprs BELAID 16
Figure 1.5 systmes, reprsentations et approches de reconnaissance 22
Figure 2.1 Schma gnral d'un systme de reconnaissance de lcriture hors- 26
ligne
Figure 2.2 Effets de certaines oprations de prtraitement 27
Figure 2.3 Le voisinage en carreau et carr 28
Figure 2.4 Exemples de Redressement de mots manuscrits 29
Figure 2.5 Dtection de ligne de base 29
Figure 2.6 Les diffrents types de segmentation 31
Figure 3.1 Racine trilre KTB en arabe 42
Figure 3.2 Exemple de formes de boucles dans des styles diffrents 43
Figure 3.3 Le ddoublement de lettre chadda 44
Figure 3.4 Les voyelles de la langue arabe 44
Figure 3.5 La composition des mots en langue arabe 45
Figure 3.6 Diffrentes combinaisons verticales possibles de caractres 46
Figure 3.7 Ecriture voyelle 47
Figure 3.8 Exemples dcritures arabes refltant ses caractristiques 48
morphologiques
Figure 4.1 Schma gnral du systme de reconnaissance de mot manuscrit 53
Figure 4.2 Prtraitement de limage 54
Figure 4.3 Positionnement de notre travail par rapport la dichotomie des types 55
dcriture
Figure 4.4 Dtermination du seuil de binarisation 56
Figure 4.5 Rsultat dune binarisation 56
Figure 4.6 Rsultat de lissage 57
Figure 4.7 Traitement dimage dhaut niveau 58
Figure 4.8 Ligne de base du mot Tamenraset . 59
Figure 4.9 Zone mdiane du mot Oum-el-bouaghi . 59
Figure 4.10 Illustration de la hauteur de la zone mdiane en pixels dans un mot 60
chantillon
Figure 4.11 Zone suprieure du mot Oum-el-bouaghi . 60
Figure 4.12 Zone infrieure du mot Oum-el-bouaghi . 61
Figure 4.13 Les 11 composantes connexes qui forment le mot Oum-el- 62
bouaghi .
Figure 4.14 Illustration du rsultat de lextraction des composantes connexes 62
vii
Figure 4.15 Rsultat de squelettisation 63
Figure 4.16 Extraction de contour 63
Figure 4.17 Extraction morphologique de contour externe, (a) image originale, (b) 67
image dilate, (c)contour externe
Figure 4.18 Illustrations des diffrentes informations ncessaires pou lanalyse 69
dune composante connexe
Figure 4.19 Topologie De Lcriture Arabe Illustre Dans Le Mot Oum-El- 70
Bouaghi .
Figure 4.20 Organigramme de dtection des diacritiques (Catgorie 1) 71
viii
Liste des Symboles
AOCR: Arabic Optical Character Recognition.
ix
Table des matires
................................................................................................................................ i
ABSTRACT ...................................................................................................................ii
RESUME ..................................................................................................................... iii
Liste des Tableaux ........................................................................................................ vi
Liste des Figures ..........................................................................................................vii
Liste des Symboles ....................................................................................................... ix
Table des matires.......................................................................................................... x
x
Chapitre2. Processus De Reconnaissance Dcriture Manuscrite ......................... 25
II.1. Introduction........................................................................................................ 25
II.2. Organisation gnrale dun SREM .................................................................. 25
I.2.1. Phase dAcquisition d'image ...................................................................................... 26
II.2.2. Phase de Prtraitement .............................................................................................. 27
II.2.2.1. Rduction du bruit ............................................................................................. 27
II.2.2.1.1. Seuillage...................................................................................................... 28
II.2.2.1.2. Lissage ........................................................................................................ 28
II.2.2.2. Redressement de lcriture................................................................................. 29
II.2.2.3. Homognisation des donnes ........................................................................... 29
II.2.2.4. Normalisation..................................................................................................... 30
II.2.3. Squelettisation........................................................................................................... 30
II.2.4. Phase de Segmentation ............................................................................................. 31
II.2.5. Phase dAnalyse ou Extraction des Caractristiques ............................................... 32
II.2.5.1. Niveaux des caractristiques .............................................................................. 32
II.2.5.2. Reprsentation des caractristiques ................................................................... 32
II.2.5.3. Types de caractristiques ................................................................................. 33
II.2.5.3.1. Caractristiques topologiques ou mtriques .............................................. 33
II.2.5.3.2. Caractristiques locales ou structurelles ..................................................... 34
II.2.5.3.3. Caractristiques statistiques ........................................................................ 34
II.2.5.3.4. Transformations globales ............................................................................ 34
II.2.5.3.5. Superposition des modles (template matching) et corrlation .................. 35
II.2.6. Phase de Classification ............................................................................................. 35
II.2.6.1. Apprentissage..................................................................................................... 35
II.2.6.1.1. Apprentissage supervis ............................................................................. 35
II.2.6.1.2. Apprentissage non supervis....................................................................... 36
II.2.6.2. Reconnaissance .................................................................................................. 36
II.2.6.2.1. Les systmes base de rgles SBR (y compris les systmes experts) ........ 36
II.2.6.2.2. Les arbres de dcision ................................................................................. 36
II.2.6.2.3. Les techniques agglomratives ................................................................... 37
II.2.7. Poste-traitement ........................................................................................................ 37
II.3. Conclusion .......................................................................................................... 38
xi
IV.1. Introduction ...................................................................................................... 52
IV.2. Architecture du systme................................................................................... 52
IV.3. Acquisition et Prtraitement ........................................................................... 54
IV.3.1. Binarisation ............................................................................................................. 56
IV.3.2. Lissage..................................................................................................................... 57
IV.3.2.1. Bouchage .......................................................................................................... 57
IV.3.2.2. Nettoyage ......................................................................................................... 57
IV.4. Segmentation de textes (Traitement dimages de haut niveau) ................... 58
IV.4.1. Localisation de la ligne de base et la zone mdiane ................................................ 58
IV.4.1.1. Localisation de la ligne de base ........................................................................ 58
IV.4.1.2. Localisation de la zone mdiane ..................................................................... 59
IV.4.2. Localisation de la zone suprieure et la zone infrieure......................................... 60
IV.4.2.1. Localisation de la zone suprieure .................................................................. 60
IV.4.2.2. Localisation de la zone infrieure ................................................................... 61
IV.4.3. Dtection des composantes connexes...................................................................... 61
IV.5. Squelettisation ................................................................................................... 62
IV.6. Traage de contours ......................................................................................... 63
IV.7. Extraction des caractristiques globales et description du mot .................. 63
IV.7.1. Choix des caractristiques ....................................................................................... 65
IV.7.2. Descripteurs globaux ............................................................................................... 65
IV.7.3. Descripteurs externes .............................................................................................. 66
IV.7.3.1. Extraction de contour ....................................................................................... 66
IV.7.3.2. Dtermination des contours des mots ............................................................... 67
IV.7.4. Zonage ..................................................................................................................... 67
IV.7.5. Caractristiques structurelles dun mot arabes ........................................................ 67
IV.7.5.1. Dtection des diffrents types des points diacritiques ...................................... 70
IV.7.5.2. Dtection des boucles (occlusions) .................................................................. 74
IV.7.5.3. Dtecter le nombre dascendants (hampes) et de descendants (jambages) ...... 74
IV.7.5.3.1. Dtection des jambages ............................................................................. 75
IV.7.5.3.2. Dtection des hampes ................................................................................ 75
IV.8. dcomposition du vocabulaire considr ........................................................ 76
IV.9. Reconnaissance ................................................................................................ 77
IV.9.1. Slection des attributs............................................................................................. 78
IV.9.2. Classification par les mthodes implmentes ........................................................ 79
IV.9.2.1. Classification par la mthode KPPV ................................................................ 79
IV.9.2.2. Classification par la mthode C-Moyenne Floue ............................................. 80
IV.9.2.3. Classification par mthode K-Means ............................................................... 82
IV.9.2.4. Classification par rseaux de neurones probabilistes (PNN) ........................... 84
III.9.2.4.1. Proprits gnrales dun PNN.................................................................. 84
IV.9.2.4.1. Avantages et inconvnients de PNN ......................................................... 85
IV.9.3. Rsultats et discussion............................................................................................. 85
IV.9.3.1. Classication simple ........................................................................................ 86
IV.9.3.2. Combinaison de classifieurs ............................................................................. 88
IV.9.3.3. Influence de paramtre K sur les rsultats de la classification KPPV .............. 89
IV.9.3.4. Utilit de dcomposition du vocabulaire .......................................................... 89
IV.10. Conclusion ....................................................................................................... 90
BIBLIOGRAPHIE ..................................................................................................... 93
ANNEXE A ............................................................................................................... 104
ANNEXE B ............................................................................................................... 108
xii
Introduction gnrale
Comment ltre humain fait-il pour raisonner, parler, calculer, apprendre? Comment
sy prendre pour provoquer: la rflexion, la pense, le jugement, le dcernement et
lintellect?
Ces interrogations ont menes des recherches sur le lien entre l'esprit humain, son
cerveau et la machine. Ces recherches ont donnes naissance des fondations de ce
que nous appelons aujourd'hui l'intelligence artificielle. Parmi les domaines de cette
dernire nous trouvons la reconnaissance des formes RdF qui consiste identifier des
formes ou des objets tout en se basant sur certaines informations reprsentatives de la
forme.
1
publication assiste par ordinateur (pour faciliter la composition partir d'une
slection de plusieurs documents), dans la poste (lecture des adresses et tri
automatique), dans les banques (traitement des chques, des factures).... Cependant
malgr les progrs technologiques, le clavier reste encore un moyen oblig de
communication avec l'ordinateur.
La reconnaissance de l'criture arabe date des annes 80 [AMI 85, SAA 85]. Depuis,
les recherches se sont multiplis dans ce domaine. Certains chercheurs se sont
intresss la reconnaissance en temps rel en utilisant des tablettes graphiques, ce
qui simplifie en partie le problme en restituant le sens du trac, d'autres se sont
penchs sur l'imprim et/ou le manuscrit en "Off-line" en utilisant un scanner ou une
camra pour la saisie des documents. Depuis, plusieurs outils de prtraitement ont t
dvelopps pour la squelettisation de l'image, de son lissage, pour la dtermination du
contour et l'extraction de primitives...et diffrentes techniques de reconnaissance ont
t labores, parmi lesquelles figurent des mthodes statistiques, structurelles ou
gomtriques, avec ou sans segmentation en caractres [ELD 90, ROM 95].
Gnralement toutes ces mthodes et bien d'autres, tendent extraire, chacune sa
faon, une catgorie de caractristiques et d'valuer par la suite la vraisemblance entre
les primitives extraites et celles de formes prototypes dj apprises par le systme de
reconnaissance.
Depuis les annes 90, la combinaison de classiffieurs a donc t une des directions de
recherche les plus soutenues dans le domaine de la RdF. Les mthodes de
combinaison ont ainsi t appliques avec succs dans les domaines de la
2
reconnaissance de l'crit. L'amlioration des performances des systmes de
reconnaissance est finalement le principal enjeu des recherches menes ces dernires
annes sur les systmes de combinaison.
Problmatique et objectifs
Jusqu prsent, ltablissement dun systme universel pour la REM reste un sujet
irrel. Puisque les tres humains sont les meilleurs lecteurs, il semble naturel dtudier
leur manire de lire avant dessayer dautomatiser le processus de lecture. Par ailleurs,
les diffrents travaux labors en AOCR, montrent que la cursivit de l'criture arabe,
la complexit de la morphologie des caractres, les longations des ligatures
horizontales ainsi que les combinaisons verticales de certains caractres, constituent
les problmes majeurs lis au traitement de cette criture. En effet, ces problmes
engendrent une forte inertie diffrents niveaux notamment dans :
Tous ces problmes et bien d'autres, se trouvent accentus dans le cas du manuscrit o
d'autres facteurs interviennent (variabilit intra et inter-scripteurs, conditions de
l'criture, fusion de points diacritiques, chevauchement de pseudo-mots, graphismes
ingalement proportionns...).
3
description du mot par rebouclage, nous parlerons alors de systmes bass sur la
lecture humaine.
A partir ce que nous avons vue dans le paragraphe ci-dessus, nous focalisons notre
travail la premire approche (globale), nous allons aborder la reconnaissance de
mots arabes en appliquant des mthodes statistiques : FCM, K-MEANS, KPPV et un
rseau de neurone probabiliste PNN. Nous obtenons un systme qui combine
paralllement les sorties de ces classifieurs.
Dans ce travail nous avons centralis notre but ltape de lextraction des
caractristiques car elle est la plus intressante dans le processus de reconnaissance
surtout dans le cas de lcriture non-contrainte manuscrite.
4
prsentons dans ce manuscrit les apports dun tel systme par rapport dautres
approches.
Prsentation du mmoire
Nous dcrivons en premier lieu notre domaine dapplication travers une prsentation
de lhistorique de LAD et les diffrents aspects de la reconnaissance de lcriture.
Nous avons mis laccent sur la reconnaissance de lcriture manuscrite en se basant
lapproche globale, que nous avons adopte dans notre travail. Suivi par une
description gnrale des principales mthodes de reconnaissance.
Ce chapitre prsente des gnralits sur lcriture arabe, son origine ; ces
caractristiques, et les principales difficults rencontres dans le domaine de
reconnaissance de mots arabe manuscrits. Nous prsentons par la suite quelques
travaux concernant la reconnaissance globale de mots dans des vocabulaires limits.
Dans le dernier chapitre, nous reprsentons plus clairement notre travail, nous
discutons en dtaille des diffrentes mthodes appliques dans notre processus de
reconnaissance, par la reprsentation des concepts de base. Nous prsentons aussi les
rsultats obtenus sur notre base de mots utilise dans le cadre de ce projet, nous
montrons galement par tude comparative entre les trois types de caractristiques
choisisses ainsi que les classifieurs implments, en amliorant ces rsultats
indpendants par une combinaison entre eux.
Enfin, cette thse est clture par une conclusion dans laquelle nous dressons un bilan
et une synthse de travail effectu, et nous discutons un ensemble de perspectives que
nous jugeons ncessaire lachvement de notre travail.
5
CHAPITRE 1
Reconnaissance
automatique de
Lcriture
Manuscrite
6
Chapitre1. Reconnaissance Automatique De Lcriture Manuscrite
I.1. Introduction
De nos jours, lcriture reste le moyen de communication visuelle le plus utilis par
lhomme. Il nest donc pas surprenant de voir que de nombreux travaux scientifiques
portent sur sa reconnaissance automatique. Lcriture est en fait la ralisation dun
message transmettre, cest--dire la reprsentation physique dun contenu
smantique. Le but de la reconnaissance de lcriture est de prendre une dcision
quant au contenu smantique du message transmis partir de sa reprsentation
physique. Les applications de systmes capables de remplir cette tche sont
nombreuses, nous pouvons citer entre autres, la lecture automatique de bons de
commande, le traitement automatique des chques, la vrification de signatures ou
encore le tri automatique du courrier.
La LAD (Lecture Automatique des Documents) et plus gnralement la RdF sont des
domaines de recherche actifs depuis la fin des annes soixante. Des systmes ont vu le
jour pour des applications trs spcifiques, mais compares aux fantastiques progrs
raliss en mdecine par exemple, et malgr une recrudescence des travaux de
recherche depuis les annes 80, les avances restent lentes et encore dcevantes.
Pourtant le champ de la RdF est considrable et les publications scientifiques dans ce
domaine sont nombreuses. Elles atteignaient dj le millier par an au dbut des annes
80 [SIM 84] et sont en explosion depuis. De plus, dun point de vue mathmatique, le
problme pos par la RdF est trivial, comme le soulignait SIMON en 1984 [SIM 84] ;
[ARR 02]: Soit X un espace de reprsentation - de prfrence un bon espace
topologique - et un ensemble fini de noms -lespace dinterprtation-. Une
reconnaissance - une identification - est une application E : X , que lon va
pourvoir de proprits ; on en dduira de jolis thormes... .
7
Dans ce chapitre, nous allons prsenter lhistorique de LAD, puis nous expliquons les
diffrents aspects de la reconnaissance de lcriture, nous poursuivrons par une
description du modle gnral de la REM. Nous terminerons en exposant nos
conclusions et la direction choisie pour notre travail.
Entre les annes 1980 et 1990, Les rseaux de neurones ont montr des rsultats
remarquables dans ce domaine. Jusqu trs rcemment, le perceptron multicouche a
t rapidement reconnu comme le classifieur par excellence dans beaucoup de
problmes de reconnaissance de caractres. Par la suite, le besoin dautomatisation
massive a donn lieu toute une multitude dapplications dont la lecture de chques
bancaires, des adresses postales, des documents imprims, etc. [AYA 04].
Quelques annes plus tard, des systmes de REM ont t raliss et sont oprationnels
ce jour. Cependant, ils sont spcifiques un domaine prcis et sont encore limits
[DAR 94], parmi ces systmes ceux qui sont orients vers lcriture pour la
reconnaissance dadresses manuscrites ou de montants de chques, on trouve [GAA
01, KB 00, KHP 05, LLG 95]. Parmi eux qui sont orients vers lcriture arabe
manuscrite citant titre dexemple le systme Reconnaissance de lEcriture Cursive
Arabe Manuscrite RECAM.
On a dautres travaux qui sont focaliss dvelopper un logiciel auto-apprenant
de reconnaissance de caractres manuscrits cursifs (documents anciens notamment).
Ce systme OCR veut saffranchir des bibliothques de langues et de la forme des
caractres. Il doit reconnatre aprs une phase dapprentissage automatique la plupart
des caractres. Plusieurs langues ont t traites parmi eux la langue arabe ; chinoise,
etc. En explorant les mthodes de reconnaissance gnrique. Ils ont orients donc vers
les approches structurelles. Et cela dans le cadre du projet Cognitive Optical
Recognition Old Characters COROC [ARR 02].
8
lcriture dans plusieurs catgories diffrentes : mode dacquisition En-ligne ou
Hors-ligne , Approche de reconnaissance Globale ou Analytique et enfin
Mthode de reconnaissance Statistiques ou Structurelle [SAO 98].
Lcriture en ligne est obtenue lors de sa ralisation par une saisie en continu du trac.
Les donnes se prsentent alors sous la forme dune squence de points ordonns dans
le temps. Dans ce cas, le signal est de type 1D (Unidimensionnel) et le systme de
reconnaissance peut bnficier de la reprsentation temporelle. De ce fait il existe une
analogie avec la reconnaissance de la parole. Il nest donc pas surprenant de voir des
chercheurs appliquer les techniques dveloppes pour la parole lcriture [SAO 98].
Les applications concernes par ces systmes de reconnaissance sont principalement
les interfaces orientes stylo qui cherchent intgrer lcriture manuscrite comme une
nouvelle modalit dinteraction entre lhomme et la machine.
Dans les applications de REM en-ligne, l'utilisateur crit sur une table spciale, le
systme va reconnatre l'criture et envoyer le rsultat l'ordinateur. Ces systmes
sont utiliss dans plusieurs quipements lectroniques comme PDA, Pocket PC ou
Tablet PC. Il y a pas mal d'avantages de REM en-ligne, par rapport celle hors-ligne.
Par exemple, car l'utilisateur crit sur une table spciale, il y a moins de bruit. De
plus, on peut dterminer comment un caractre est crit, c'est dire, l'ordre de traits
constituants ce caractre. D'ailleurs, la contrainte du temps de reconnaissance n'est pas
stricte, on peut utiliser des algorithmes complexes. C'est pour quoi le taux de
reconnaissance de ces systmes est assez lev [ALA 05].
9
I.3.1.2. Reconnaissance hors-ligne
Rcemment sont apparus des systmes mixtes capables de prendre en compte les
caractristiques statistiques et dynamiques de lcriture. On peut classer ces systmes
en deux types [OLL 99, SOU 06] :
10
I.3.1.2.1. Reconnaissance de texte ou analyse de documents
Ltre humain arrive avec aisance reconnatre n'importe quel document. Cette
facult est assez basique pour un tre humain ; en revanche elle pose jusqu ce jour
encore des problmes pour lordinateur. L'analyse et la reconnaissance d'images de
documents englobent un ensemble de techniques informatiques avec comme but la
reconstitution du contenu du document sous la forme de documents structurs, selon
une forme dfinie par l'application en question. Les documents structurs couvrent
deux catgories de documents : les documents imprims et les documents manuscrits.
Parmi les documents imprims nous distinguons les documents structures simples et
les documents structures complexes [KAR 06].
La reconnaissance de documents sapplique plusieurs langues crites. La langue
latine a reu la plus grande attention de la part de chercheurs. En revanche, malgr le
nombre de personnes qui parlent la langue arabe, peu de travaux de recherche sur la
reconnaissance de documents ont t consacrs cette langue [KAR 06].
En revanche, pour le cas du manuscrit, les caractres sont souvent ligaturs et leur
graphisme est ingalement proportionn provenant de la variabilit intra et inter
scripteurs. Cela ncessite gnralement lemploi de techniques de dlimitation
spcifiques et souvent des connaissances contextuelles pour guider la lecture [FAH
01]. Dans ce cas, le problme de REM sera donc plus un problme de reconnaissance
de mots ou fraction de mots quun problme de reconnaissance de caractres [BEL
92].
11
pralablement segments, il sagit dune approche analytique. Soit il nutilise que
certaines proprits et raffine sa description du mot par rebouclage, nous parlerons
alors de systmes bass sur la lecture humaine.
Les approches globales reposent sur une description du mot du mme type que celles
utilises en reconnaissance de caractres. Comme le mot est une forme plus complexe
que le caractre, la description contiendra plus dinformations et sera ainsi moins
sensible aux changements de scripteurs. Lapproche globale considre le mot comme
une seule entit et le dcrit indpendamment des caractres qui le constituent. Elle
contourne le problme dlicat de la segmentation en se basant sur une description
globale de toute limage du mot manuscrit. Cette approche prsente lavantage de
garder le caractre dans son contexte avoisinant, ce qui permet une modlisation plus
efficace des variations de lcriture et des dgradations quelle peut subir.
12
I.3.2.3. Approche base sur la lecture humaine
Les systmes bass sur la lecture humaine reposent sur le principe de la supriorit du
mot (word superiority effect) [REI 69]. Ce principe veut quune lettre soit plus facile
reconnatre dans un mot que seule. Un effet secondaire de ce principe, est la capacit
humaine de reconnatre un mot alors mme que quelques unes de ses lettres sont
inverses. Il apparat donc que la perception de formes particulires dans un mot suffit
sa lecture.
13
I.4. Complexit dun systme de RAED
Dune manire gnrale la complexit dun systme de RAED svalue suivant trois
critres orthogonaux [BEL 01] :
Figure I.2. Diffrents types dcritures : (a) criture en btons, (b) criture majuscule, (c)
criture attache.
Selon la classification de Tappert en 1984 des styles dcriture (voir figure I.3), on
trouve :
14
Pure cursive script : criture purement cursive avec des lettres compltement
connectes, rendant ainsi la localisation des lettres difficilement dissociable de
la tche de reconnaissance.
Mixed cursive and discrete : combinaison des styles prcits, cest le style
dcriture le plus utilis vu sa simplicit et rapidit de trac, cependant cest le
style dcriture le plus difficile reconnatre vue les diffrents variations
permises aux scripteurs.
Il est vident que la reconnaissance dune criture mixte naturelle est un problme
beaucoup plus complexe, du fait de lambigut des limites entre les lettres, que la
reconnaissance dune criture dtache, o la sparation des lettres est quasi
immdiate.
15
Figure I.4. Graphe de complexit des systmes de RAED daprs BELAID [BEL 01].
Dites aussi mthodes gomtriques, se fondent sur une caractrisation des paramtres
des formes tudies (caractres, mots,). Ces mthodes permettent de prendre une
dcision de classification d'une forme inconnue.
Elle repose sur une description extensive, plutt que comprhensive , des classes
[MER 04]. Bien entendu, il est assez rare que lon puisse prvoir a priori toutes les
16
occurrences possibles de formes observes pour les diffrentes classes. On considre
plus prcisment quune classe est dcrite par un ensemble reprsentatif
dexemplaires de formes appartenant cette classe.
17
p( x / Ci ) P(Ci )
p(Ci / x) 1.1
Pi ( x)
k
pi ( x) p( x / Ci ) P(Ci ) 1.2
i 1
Dans le cas dun problme de classification, la formule (1.2) dfinit une rgle de
dcision. La probabilit de mauvaise classification est minimise en slectionnant la
classe qui a la plus grande probabilit a posteriori.
Lalgorithme K Plus Proche Voisins KPPV affecte une forme inconnue la classe de
son plus proche voisin en le comparant aux formes stockes dans une classe de
rfrences nomme prototypes. Il renvoie les K formes les plus proches de la forme
reconnatre suivant un critre de similarit. Une stratgie de dcision permet
daffecter des valeurs de confiance chacune des classes en comptition et dattribuer
la classe la plus vraisemblable (au sens de la mtrique choisie) la forme inconnue
[BEN 99, BUR 04].
Cette mthode prsente lavantage dtre facile mettre en uvre et fournit de bons
rsultats. Son principal inconvnient est li la faible vitesse de classification due au
nombre important de distances calculer.
18
Par ailleurs, le point fort des rseaux de neurones rside dans leur capacit de gnrer
une rgion de dcision de forme quelconque, requise par un algorithme de
classification, au prix de lintgration de couches de cellules supplmentaires dans le
rseau [LIP 87].
19
Les MMC sont aujourdhui couramment employs en RdF, dans certaines de ces
approches pour la reconnaissance de lcriture, les images des mots sont transformes
en squences de segments dimage au moyen dune procdure de segmentation. Ces
segments sont ensuite transmis un module charg destimer la probabilit selon
laquelle chaque segment apparat lorsque ltat correspondant de la chaine de Markov
est un certain tat.
Par ailleurs, lcriture arabe semi-cursive, aussi bien dans sa forme imprime que
manuscrite, se prte naturellement une modlisation stochastique, en occurrence
markovienne, tous les niveaux de reconnaissance. Ces modles peuvent prendre en
charge le bruit et la variabilit inhrente lcriture manuscrite et dviter le problme
de segmentation explicite des mots.
Cependant, lutilisation des MMCs en reconnaissance de larabe est relativement
limite [BEN 01b].
Dans le cas dune description structurelle, il faudra utiliser des formalismes plus
complexes. Les formes sont dcomposes en primitives simples qui peuvent tre des
graphmes ou mme les pixels de limage. Elles sont ensuite reprsentes par un objet
complexe, compos des primitives, comme une chane ou un graphe. Le processus de
20
reconnaissance (grammatical [GON 78], stochastique [BEL 97] ou graphique [BUN
01]) est propre la reprsentation utilise.
Les mthodes structurelles reposent sur la structure physique des caractres. Elles
cherchent trouver des lments simples ou primitifs, et dcrire leurs relations. Les
primitives sont de type topologiques telles que : une boucle, un arc et une relation
peut tre la position relative dune primitive par rapport une autre [ANI 92, HA 96].
Parmi les mthodes structurelles nous pouvons citer :
Elles consistent appliquer sur chaque caractre trait des tests de plus en plus fins
sur la prsence ou labsence de primitives (dcomposer limage en primitives), de
manire rpartir les chantillons en classes. Le processus le plus habituel consiste
diviser chaque test lensemble des choix en deux jusqu nobtenir quune seule
forme correspondant au caractre entr. Ce choix dichotomique est trs rapide et trs
simple mettre en uvre, mais il est trs sensible aux variations du trac [BEN 99].
Les algorithmes mettre en uvre pour effectuer une classification partir des
primitives structurelles relvent le plus souvent de lalgorithmique gomtrique. On
trouve ainsi typiquement [MER 04]:
Une forme apparat comme lassemblage dun certain nombre dlments de base
(primitives ou traits pertinents). La mthode syntaxique est base sur la recherche de
lois dassemblage dlments de base pour former un ensemble construit qui
reprsente la forme. Chaque caractre est reprsent par une phrase dans un langage
o le vocabulaire est constitu de primitives. Les caractres dune mme famille sont
reprsents par une grammaire.
La reconnaissance dune forme inconnue se fait alors par une analyse syntaxique de la
phrase qui la dcrit. Elle consiste dterminer si la phrase de description du caractre
peut tre gnre par la grammaire. Linconvnient de cette mthode est labsence
dalgorithmes efficaces pour linfrence grammaticale directe [BEN 99].
21
I.5.4. Mthodes hybrides
Il existe aussi des mthodes dites hybrides, les modle de Markov cachs en font
partie car ils emploient une approche statistique tout en ayant la possibilit dutiliser
des descriptions structurelles [GRA 03, SOU 06]. Depuis le milieu des annes 90,
lutilisation des MMC pour la reconnaissance de mots latins sest intensifie [AVI 96,
BEL 97, CHE 94, MOR 03], particulirement dans des applications comme la lecture
de chques ou dadresses postales pour lesquelles on dispose de bases de donnes
importantes. Lapproche par modle discriminant en cas de petits vocabulaires; un
modle pour chaque mot, et lapproche par chemin discriminant en cas de grands
vocabulaires ; un modle pour plusieurs mots et cest le dcoupage de Viterbi qui
effectue la reconnaissance, en cherchant le chemin optimal dans un treillis de mots
[SOU 06].
La figure 1.5 illustre les diffrents systmes de reconnaissance, leurs reprsentations
et les diffrentes approches de reconnaissance quon a cite dans le paragraphe ci-
dessus.
22
I.6. Conclusion
Ce chapitre a permis de prsenter notre domaine dintrt : la REM. Aprs avoir pass
en revue un certain nombre de techniques utilises pour la mise en uvre dun
systme de reconnaissance de lcriture, nous avons prsent celui sujet de notre
tude. Dans un premier temps nous avons parl un peu sur lhistorique de LAD et
dterminer leur complexit puis nous avons prsent les diffrents aspects de la
RAED. Nous avons prsent aussi certains concepts gnraux lis lOCR, en
prcisant les principales mthodes de reconnaissance.
Ce domaine de recherche est devenu lintrt des chercheurs durant la dcennie.
Larriver concevoir un systme idal capable dapprocher les performances
humaines reste jusqu aujourdhui un rve pour les chercheurs.
23
CHAPITRE 2
PROCESSUS DE
RECONNAISSANCE
Decriture
MANUSCRITE
24
Chapitre2. Processus De Reconnaissance Dcriture Manuscrite
II.1. Introduction
Depuis plusieurs annes, de nombreux travaux de recherche ont port sur les systmes
de reconnaissances hors-ligne ont vue une progression remarquable. Ainsi plusieurs
mthodes ont t dvelopp en sorte daider atteindre des systmes satisfaisants qui
sont exists dans des domaines dapplications varis tels que la lecture automatique
des adresses postales, les chques bancaires et le traitement des documents ; etc.
Il faut distinguer deux types d'criture manuscrite hors-ligne. Dans le premier cas,
chaque caractre est spar par l'utilisateur. Dans le deuxime cas, les caractres sont
crits normalement, c'est dire, les caractres se sont touchs. C'est le systme qui
doit sparer ces caractres. Le problme devient plus difficile. Dornavant, quand on
parle d'criture manuscrite, on aborde le deuxime cas.
25
ralise ; son but est la rduction de la quantit dinformation et dextraction des
caractristiques les plus pertinentes pour la reconnaissance. Nous passons la phase
dapprentissage. Elle permet destimer les diffrents paramtres de la modlisation
choisie, partir du corpus de donnes dapprentissage. Cette tape permet dobtenir
un dictionnaire dhypothses possibles. Un module de post-traitement peut-tre
ajout, en introduisant des informations supplmentaires et : ou complmentaires,
pouvant tre de diffrentes nature : contextuelles, lexicale, syntaxique, smantique.
Elle a pour but damliorer le taux de la reconnaissance.
Pour arriver concevoir un bon SREM, il faut bien saisir et comprendre le rle de
chacune des composants qui sont illustrs dans la figure II.1. Il est bon de noter :
qu'il n'y a pas ncessairement de composants fonctionnels dans tous les SREM. Un
SREM peut prendre charge de la fonction de classification sans avoir auparavant
explicitement extrait les caractristiques au moyen, par exemple, d'une certaine forme
quelconque d'appariement par rfrence.
que des composants fonctionnels ne sont pas toujours mis en place titre de
composants incompatibles. Ainsi, un objet logiciel peut extraire des caractristiques et
les classifier simultanment.
que des composants fonctionnels n'interviennent pas ncessairement en squence.
De fait, dans de nombreuses applications, un nombre important d'extractions de
caractristiques sont effectues avant la segmentation.
26
camra,) et de la convertir en grandeurs numriques adapts au systme de
traitement, avec un minimum de dgradation possible.
Cette tape est assez simple mais trs importante car elle influence srieusement les
tapes suivantes. Il y a deux paramtres important :
Rsolution: la rsolution normale est 300 dpi. Pourtant, quand la taille de l'criture
est petite, il faut augmenter la rsolution. La rsolution du scanner (nombre de
points par pouce : ppp ou dots per inch: dpi) dsigne sa capacit digitaliser les
traits fins.
Niveau d'clairage : si on ajuste le scanneur pour que l'image soit plus claire, le
bruit est rduit mais des traits minces disparaissent aussi.
27
Dans le cas des images, parmi les mthodes de suppression de bruit les plus courantes,
on retrouve le seuillage et le lissage.
II.2.2.1.1. Seuillage
L'image entre est une image en couleur et les algorithmes de reconnaissance courants
travaillent souvent sur des images binaires. Donc, il faut faire le seuillage.
Larrire-plan tant gnralement plus clair que le trac, la sparation la plus implicite
consiste considrer tous les pixels dont le niveau de gris est infrieur un certain
seuil comme faisant partie du trac et vice-versa. La dtermination du seuil peut tre
globale, c'est--dire que le seuil a la mme valeur pour tous les pixels du document,
ou locale [BEL 92], pour laquelle le seuil varie dune position une autre. Les
mthodes de seuillage global ne sont pas trop consommatrices en terme de temps de
calcul, par contre, elles ne donnent de bons rsultats que si le document est
uniformment clair. Les mthodes de seuillage local sont plus robustes de telles
dgradations mais leur temps de calcul est plus important. La mthode de seuillage
local de base est celle de Niblack, elle fut ensuite amliore par Sauvola [SAU 97].
Ces mthodes calculent le seuil de chaque pixel en fonction de la moyenne et de la
variance des niveaux de gris de ces pixels voisins.
II.2.2.1.2. Lissage
Limage des caractres peut tre entache de bruits dus aux artefacts de lacquisition
et la qualit du document, conduisant soit une absence de points ou une
surcharge de points. Les techniques de lissage permettent de rsoudre ces problmes
par des oprations locales quon appelle oprations de bouchage et de nettoyage
[BUR 04].
Lopration de nettoyage permet de supprimer les petites tches et les excroissances
de la forme. Pour le bouchage il sagit dgaliser les contours et de boucher les trous
internes la forme du caractre en lui ajoutant des points noirs.
28
II.2.2.2. Redressement de lcriture
Lun des problmes rencontrs en OCR est linclinaison des lignes du texte, qui
introduit des difficults pour la segmentation. Le redressement de lcriture comprend
gnralement deux tapes : la premire vise le redressement de la ligne de base du
mot, la seconde le redressement des caractres. Il convient alors de le redresser afin de
retrouver la structure de lignes horizontales dune image texte.
Cette ligne de base est dfinie comme la ligne sur laquelle reposent les lettres ne
possdant pas de dpassement bas. L'ide est de rendre horizontaux les mots l'aide
d'une transformation gomtrique de type rotation isomtrique des points de l'image
(voir Figure II.4.a) [BEL 01]. Et cela se fait comme suit :
Si est langle dinclinaison, pour redresser limage, une rotation isomtrique dangle
est opre grce la transformation linaire suivante [STE 99]:
Pour dtecter la ligne de base dune image, on peut utiliser la mthode de la projection
horizontale o la ligne de base correspondra la ligne horizontale ayant la plus grande densit
de pixels noirs.
29
Amlioration de la qualit des donnes pour faire ressortir les dtails significatifs
et liminer le reste, laugmentation du contraste dune image en est un exemple.
Slection directe dinformations pertinente appel filtrage. Un filtre passe-bas,
par exemple, laisse passer les basses frquences et attnue les hautes pour craser les
contours.
II.2.2.4. Normalisation
Etant donn que la taille des caractres arabes est trs variable, la normalisation de la
taille est souvent utilise pour chelonner les caractres une taille fixe et pour
centrer les caractres avant dentamer toute extraction car le classificateur va effectuer
plus efficacement sur les images de taille homogne. Cette opration est trs utile
dans les mthodes de reconnaissances qui sont sensibles aux petites variations dans la
taille et la position. Mais si la taille fixe est trs petite, on peut perdre d'information,
si elle est trs grande, l'tape de reconnaissance va oprer lentement [ALA 05].
Dans certains travaux sur la reconnaissance de lcriture, cette opration se fait par le
calcul du rectangle englobant (i.e., Bounding Box : le plus petit rectangle contenant le
caractre) de chaque caractre, en appliquant des fonctions dexpansion
(indpendantes) dans les directions x et y pour rendre le caractre encastr dans un
rectangle de certaine taille. Pour reconnatre les diffrentes tailles ou estimer la
largeur moyenne dun caractre ncessaire sa segmentation, les chercheurs mesurent
la hauteur moyenne dun caractre partir de sa projection horizontale [AlB 95b].
Aprs la normalisation de la taille, les images de tous les caractres se retrouvent
dfinies dans une matrice de mme taille, Pour faciliter les traitements ultrieurs.
Cette opration introduit gnralement de lgres dformations sur les images.
Cependant certains traits caractristiques tels que la hampe dans les caractres (
)par exemple peuvent tre limins la suite de la normalisation, ce qui peut
entraner des confusions entre certains caractres [STE 99].
II.2.3. Squelettisation
La squelettisation sert obtenir une paisseur gale 1 du trait d'criture et de se
ramener ainsi une criture linaire. Le squelette doit prserver la forme, connexit,
topologie et extrmits du trac, et ne doit pas introduire d'lments parasites [BEL
01].
La squelettisation du trac dcriture peut tre utilise pour : simplifier lextraction de
caractristiques ou pour attnuer la variabilit inhrente aux styles dcriture [ALM
87, ZAH 90, GOR 92, ABU 94, ABU 95, AMI 96, ABU 98, ALM 02, ALM 04, ALO
02, KHO 00, AMI 03, ALM 06, ALR 06] ; la localisation de la ligne de base et la
normalisation [PEC 03, PEC 06] ; la segmentation du texte en lignes et les lignes en
mots [ABU 94], [ABU 96] et la segmentation de mots en graphmes [ALM 87, KHO
00, KHO 03] ; et la restauration des informations dynamiques dans lcriture hors-
ligne [ABU 93].
30
est indpendant de celui effectu sur les autres pixels, ce qui permet dexaminer en
mme temps tous les pixels pour gnrer le squelette.
31
II.2.5. Phase dAnalyse ou Extraction des Caractristiques
En REM, les donnes traiter sont des images. Cette reprsentation de linformation
nest pas adapte pour les systmes de reconnaissance. Une tape dextraction de
caractristiques est ralise de manire extraire linformation la plus discriminante
pour la tche de reconnaissance et galement pour rduire le volume dinformations
qui sera fourni au systme. Daprs Jain et al. [JAI 00], la performance dun systme
de classification dpend fortement des relations entre le nombre dchantillons
utiliss, le nombre de caractristiques considres et la complexit du systme.
Les caractristiques peuvent tre extraites partir des mots, des lettres ou des sous-
lettres, donnant ainsi lieu aux trois niveaux de caractristiques :
Caractristiques de bas niveaux : extraites partir des sous- lettres, ayant des
formes lmentaires tel que les petites lignes, les courbes, les traits, les barres,,
et des particularits gomtriques simples, ce qui fait quelles soient trs
apprcies.
Caractristiques de niveaux moyen : extraites partir des lettres, gnralement
utilises dans les systmes de reconnaissance des caractres cursifs bass sur la
segmentation explicite, citons, titre dexemple de caractristiques de niveau
moyen, les distributions de transitions entre le fond et lcriture.
Caractristiques de haut niveau : ce sont les caractristiques perceptuelles,
facilement visibles, consistant en la dtection dlments structurels, elles sont
indpendantes des styles dcritures vitant ainsi le problme de la variabilit des
formes. Parmi les caractristiques de haut niveau on peut citer : les boucles, les
ascendants, les descendants, en plus des jonctions, les points finaux et traits et les
points diacritiques pouvant tre utiliss pour trouver une reprsentation
approximative du mot, ceci permet de se dbarrasser dune partie du lexique ou de
rejeter un rsultat du processus de reconnaissance dont la reprsentation nest pas
compatible avec celle dtecte.
32
portions dont les caractristiques sont extraites et reprsents par des valeurs
boolennes, entires ou relles dans une matrice ou un vecteur, cette
reprsentation est moins convenable pour reprsenter les caractristiques de haut
niveau.
Comptage : gnralement utilis pour reprsenter les caractristiques de haut
niveau en calculant le nombre de caractristiques existantes (nombre des
ascendants, nombre des descendants, nombre des boucles,.).
Squence : utilis pour reprsenter les caractristiques de niveau haut et
intermdiaire qui permettent dapproximer le mot par une squence de symboles
reprsentant un ensemble de primitives structurelles.
Structure de graphe : limage est reprsente par un graphe o les nuds
correspondent aux diffrentes caractristiques, et les relations entre elles sont
illustres par des arcs, cette reprsentation graphique est trs puissante car elle
montre la position des caractristiques et leurs relations.
Le terme mtrique dsigne la mesure d'une distance. La topologie est : ltude des
proprits de l'espace (et des ensembles) du seul point de vue qualitatif [DAR 94].
Concrtement, la topologie consiste, l'aide de sondes appliques directement sur
l'image "brute", effectuer par exemple sur l'chantillon les mesures et les tests
suivants :
33
Dterminer le rectangle dlimitant l'chantillon, ou le polygone convexe,
Evaluer le rapport d'longation (ou allongement) longueur/largeur, ...
Rendre compte de la disposition relative de ces caractristiques.
Les traits et les anses dans les diffrentes directions ainsi que leurs tailles.
Les points terminaux, jonctions et croisements.
Les points dintersections.
Les boucles.
Le nombre de points diacritiques et leur position par rapport la ligne de base.
Les voyellations et les zigzags (hamza).
La hauteur et la largeur du caractre.
La catgorie de la forme (partie primaire ou point diacritique, etc).
Linconvnient de ces primitives est que leur extraction ncessite une squelettisation
pralable du caractre, puisque lpaisseur du trait ne contient pas dinformation.
34
caractristiques pertinentes [SOU 06]. La transformation consiste convertir la
reprsentation en pixels en une reprsentation plus abstraite pour rduire la dimension
des caractres, tout en conservant le maximum dinformations sur la forme
reconnatre.
La mthode de template matching applique une image binaire (en niveaux de gris
ou squelettes), consiste utiliser limage de la forme comme vecteur de
caractristiques pour tre compar un modle (template) pixel par pixel dans la
phase de reconnaissance, et une mesure de similarit est calcule [KER 00].
II.2.6.1. Apprentissage
Lapprentissage est dit supervis si les diffrentes familles des formes sont connues
priori et si la tche dapprentissage est guide par un superviseur ou professeur. On
choisit un sous-ensemble de formes, chacune est analyse puis le professeur indique
la classe dans laquelle il souhaite la voir range. Lapprentissage consiste alors
analyser les ressemblances entre formes de la mme famille et les dissemblances entre
formes de familles diffrentes pour en dduire les classes avec les meilleures
sparatrices possibles. Les paramtres dcrivant cette partition sont stocks dans une
base dapprentissage.
35
II.2.6.1.2. Apprentissage non supervis
II.2.6.2. Reconnaissance
Cette tape consiste dterminer les classes dappartenance des diffrents fragments
extraits de limage originale par ltape de segmentation, cette classification sappuie
sur un certains nombre de connaissances priori comme le type des images
reconnatre (chiffre, mot, lettre, caractre, graphme), le nombre de classes possibles.
La dcision de reconnaissance suppose gnralement un apprentissage pralable et
peut tre effectue en utilisant une multitude de mthodes de classification (Voir
section I.5). Nous citons quelques techniques de classification :
II.2.6.2.1. Les systmes base de rgles SBR (y compris les systmes experts)
Utilisent habituellement les rgles SI ALORS pour tablir jusqu' quel point les
conditions dans la partie SI sont conformes au modle. Dans les SBRs, il est possible
que deux rgles ou plus (comportant des recommandations de classification
diffrentes) soient applicables la mme forme d'entre. Il en dcoule des conflits et
il faut alors avoir recours des mcanismes de rsolution de conflits. L encore, dans
un systme de reconnaissance de caractres comportant un alphabet 0/1 , on peut
s'attendre avoir une rgle telle que : SI (la forme grande boucle), ALORS (la
classe = 0 ).
Les arbres de dcision sont composs dune structure hirarchique en forme d'arbre.
Cette structure est construite grce des mthodes dapprentissage par induction
partir dexemples. Larbre ainsi obtenu reprsente une fonction qui fait la
classification dexemples, en sappuyant sur les connaissances induites partir dune
base dapprentissage. En raison de cela, ils sont aussi appels arbre dinduction
(Induction Decision Trees). Une dfinition un peu plus formelle des arbres de
dcision est la suivante : un arbre de dcision est un graphe orient, sans cycles, dont
les nuds portent une question, les arcs des rponses, et les feuilles des conclusions,
ou des classes terminales [OSO 98].
36
II.2.6.2.3. Les techniques agglomratives
La reconnaissance peut conduire un succs si la rponse est unique (un seul modle
rpond la description de la forme du caractre). Elle peut conduire une confusion
si la rponse est multiple (plusieurs modles correspondent la description). Enfin
elle peut conduire un rejet de la forme si aucun modle ne correspond sa
description. Dans les deux premiers cas, la dcision peut tre accompagne dune
mesure de vraisemblance, appele aussi score ou taux de reconnaissance.
La validation de mthodes de reconnaissance se fait par comparaison des rsultats de
la reconnaissance automatique aux tiquettes donnes par le professeur. On en tire
donc :
Le systme valuant un critre de dcision peut assigner une forme une classe mais
il peut aussi dterminer avec quelle confiance il effectue cette dcision. Si le critre de
dcision prend des valeurs trs proches pour plusieurs classes, la confiance dans la
dcision est faible.
Le rejet est trs important dans les applications, il va tre modul en fonction
d'impratifs de risque et de cot. Par exemple, il est trs coteux de faire des erreurs
sur la lecture des adresses postales et encore plus sur les montants des chques, on
prfrera donc augmenter les taux de rejet quitte baisser les taux de reconnaissance.
II.2.7. Poste-traitement
Cette tape aide rduire considrablement des erreurs. Cependant, ce n'est pas une
tape compltement spare des tapes prcdentes. Comme le processus de
reconnaissance l'criture de l'humain, l'tape de poste-traitement est intgre
strictement en ces tapes.
Le post-traitement comprend la vrification, l'excution de l'action et l'adaptation.
Cette tape peut tre rajout un systme de reconnaissance de lcriture pour but
damliorer le taux de la reconnaissance, en introduisant des informations
contextuelles permettant de lever lambigut dans la reconnaissance de certains mots
ou caractres, parmi ces informations en citant :
37
Les connaissances pragmatiques sur la longueur moyenne de chacune des lettres,
ou sur le nombre de lettres constituant un mot.
Les algorithmes de correction orthographiques ou morphologiques l'aide de
dictionnaires de digrammes, tri-grammes ou n-grammes.
Les connaissances linguistiques quand il s'agit de la reconnaissance de phrases
entires, on fait intervenir des contraintes de niveaux successifs : lexical,
syntaxique ou smantique.
Lexical : pour valider la reconnaissance effectue en ne retenant que des mots du
dictionnaire, et en rejetant les listes de lettres inconsistantes.
Syntaxique et smantique : pour rduire la liste des mots candidates et valider
ceux qui ont t retenus ltape prcdente. [BEL 01, SAO 98].
Il peut tre aussi envisag si la reconnaissance ne donne pas les rsultats escompt, et
sachant que le problme nest en fait pas rsultant de la reconnaissance elle-mme
mais dun autre module, de lacquisition, du prtraitement ou mme de lextraction
des caractristiques, ou a peut bien tre engendr par une base dapprentissage pas
assez complte.
II.3. Conclusion
La problmatique de la reconnaissance des caractres constitue un sous ensemble de
la RdF, la reconnaissance des caractres tant limite aux formes base de texte.
L'objectif de tout systme de reconnaissance de caractres est de tirer
automatiquement un sens d'une image deux dimensions (ou d'une trace) d'une entre
de texte. On peut dire, cependant, que tous les systmes de reconnaissance de
caractres comportent quatre parties fonctionnelles : le prtraitement, l'extraction des
caractristiques, la classification des formes et le post-traitement.
Selon les auteurs, quelles que soient les techniques utilises, toutes les mthodes de
reconnaissance de caractres doivent relever deux importants dfis : la segmentation
et l'adaptation. La segmentation, ou le manque de segmentation, constitue le plus
grand problme auquel sont confronts les concepteurs qui tentent de monter un
systme de reconnaissance de caractres libre de toute restriction.
L'autre problme important dans la reconnaissance de caractres est l'adaptation,
particulirement en l'absence de la rtroaction directe (d'un tre humain) pour
redresser les erreurs. C'est dire que l'apprentissage ne serait pas surveill et que
l'incertitude persisterait. C'est que la machine aurait dcider elle-mme de l'erreur et
de l'emplacement de l'erreur, une tche qui dans les meilleures circonstances peut tre
ardue.
Dans ce chapitre nous avons abord les diffrentes tapes ncessaires la REM ainsi
que leurs objectifs savoir : les prtraitements, lextraction des primitives etc., qui
doivent tre choisis dune manire rigoureuse par le concepteur, avant de dvelopper
son systme de reconnaissance. Chacune des tapes abordes a ces propres avantages
et inconvnients, certaines tapes engendrent des pertes dinformations. Toutes ces
difficults font que la RdF ne soit pas un processus simple, linaire et vident. Ces
tapes doivent tre bien menes pour ensuite compter sur une classification efficace.
38
CHAPITRE 3
ECRITURE
ARABE
ET
LOcr
39
Chapitre 3. Ecriture Arabe Et LOCR
Ainsi la rforme de cette criture est devenue une affaire imprative et trs urgente.
Cest durant califat Abbasside1 que les pionniers de la rforme, dbutrent leurs
travaux. Les plus importantes modifications apportes aux nombres de deux sont
[ZGH 02]:
40
rgles grammaticales, ce qui multiplie les formes ncessaires sa reprsentation,
puisquelle peut scrire seule ou sur le support de trois voyelles (alif, waw et ya).
De plus lalphabet arabe comprend dautres caractres additionnels tels que et
, de ce fait, certains auteurs considrent que lalphabet arabe comprend plutt 31
lettres que 29.
La considration du symbole ~ qui scrit uniquement sur le support du caractre
, fait apparatre dautres graphismes (Tableaux III.2 et III.3). Lcriture arabe a ainsi
plusieurs spcificits nous nous citons ci-dessous.
Tableaux III.2. et III.3. Hamza et Madda et les positions quelles occupent en association
avec Alif, Waw et Ya.
41
lettres ou quelles sont isoles (variantes contextuelles). Certaines lettres, cependant,
ne sattachent jamais la lettre suivante : de fait, un mot unique peut tre entrecoup
dun ou plusieurs espaces, lesquels sont aussi utiliss pour sparer les mots. La
longueur de cet espace inter-mot est gnralement suprieure lespace intra-mot
entre caractres non attachs.
Lalphabet arabe est un abjad, le lecteur doit connatre la structure de la langue pour
restituer les voyelles. Cela se traduit par le fait que toutes ces lettres, lexception de
lAlef, sont des consonnes. Le Waw et le Ya sont, elles, des demi-voyelles, dans la
mesure o elles reprsentent la fois une consonne et une voyelle : le Waw se
prononce w ou ou alors que le Ya se prononce y ou i. Ainsi, la racine trilitre
KTB (figure III.1) peut, selon le vocalisme, tre lue kutub (les livres), kataba (il
crivit) ou encore kutiba (qui a t crit).
La lettre arabe change de forme selon sa position dans le mot. Elle ne s'crit donc pas
de la mme manire au dbut, au milieu ou en fin de mot. Le Tableau III.3 illustre les
diffrentes lettres arabes ainsi que leurs formes au dbut, au milieu ou en fin de mot.
Il est noter la prsence des points diacritiques rattachs aux lettres dont le nombre
varie de un trois points ; Ces points peuvent se situer au-dessus ou au-dessous du
caractre, mais jamais en haut et en bas simultanment. Un nombre important de mots
en arabes sont composs uniquement de consonnes. Nanmoins, nous notons la
prsence de voyelles au sein des mots. Les voyelles se subdivisent en deux catgories
: voyelles longues et brves ; quon va les expliquer par la suite.
Les formes correspondantes un mme caractre, souvent appeles formes internes
, prsentent parfois de sensibles diffrences ; dans certains cas, il est mme difficile
den dduire sil sagit dune mme lettre. Cependant le codage ASMO attribue un
seul code pour les diffrentes formes dun mme caractre, contrairement au latin o
le code ASCII prvoit deux codes diffrents pour la mme lettre dans sa forme
majuscule et minuscule [BEN 99].
42
F : forme Finale du caractre.
M : forme Mdiane du caractre
I : forme Initial du caractre.
Certains caractres arabes incluent une boucle qui peut avoir diffrentes formes
(Figure III.2).
5 PAWs /mot 4 PAWs /mot 3 PAWs /mot 2 PAWs /mot 1 PAWs /mot
, , , , ,
Tableau III.4. Exemple de mots composs de la droite vers la gauche de 1, 2, 3,4 et 5 PAWs
respectivement.
Comme le caractre, le PAW peut se trouver dans des mots diffrents des positions
diffrentes, mais contrairement au caractre, le PAW prsente une structure
morphologique stable, il garde la mme calligraphie dans les diffrentes positions
quil occupe (Tableau III.5).
43
Les voyelles longues sont composes de trois lettres alif ( ), waaw ( ) et yaa ( ).
Les trois voyelles brves sont :
- fatha ( ) : elle surmonte la consonne et se prononce comme un a en
franais;
- damma ( ) : elle surmonte la consonne et se prononce comme un u en
franais ;
- kasra ( ) : elle se note au-dessous de la consonne et se prononce comme un
i en franais.
wasla ( ): quand la voyelle dun alif au commencement dun mot doit tre
absorbe par la dernire voyelle du mot qui prcde, on en indique llision
par le signe wasla plac au-dessus de lalif ;
madda (): le madda (prolongation) se place sur lalif pour indiquer que cette
lettre tient lieu de deux alifs conscutifs ou quelle ne doit pas porter le hamza.
Ce signe de contraction a la forme dun alif horizontal. Le madda surmonte
aussi les groupes de lettres exprimant une abrviation.
44
Les voyelles sont utilises dans le but dassurer quun texte est lu haute voix sans
erreurs de prononciation. Certains livres tels que le coran, la posie et les livres
dapprentissage de la langue arabe utilisent les voyelles de manire systmatique.
Si en franais 5 signes orthographiques (les accents grave, aigu et circonflexe, le
trma et la cdille) modifient certaines lettres, en arabe toutes les formes de consonnes
sont susceptible de porter chacune des huit signes de voyellation et souvent deux
dentre eux superposs (par exemple chaddah+voyelle et chaddah+tanwin). Outre ; les
caractres arabes voyells ncessitent des matrices de dimensions importantes
notamment en hauteur [BEN 99].
Lcriture arabe est curviligne, compose de consonnes, dans la grande majorit et de
voyelles longues, lies entre elles par des ligatures. Les mots sont constitus d'un
regroupement de lettres. Chaque lettre possde une reprsentation selon la position
dans laquelle elle se trouve : initiale, mdiane ou isole (voir Tableau III.3). La
composition du mot "bienvenue" en arabe repose sur le regroupement de cinq lettres ;
la figure ci-dessous illustre ce mot.
Le mot "bienvenue" en arabe figurant dans la figure III.5 est compos de deux
pseudo-mots, dits aussi fraction d'un mot. En effet, un mot en arabe peut comprendre
un ou plusieurs pseudo-mots composs d'un certain nombre de caractres diffrents.
III.5.2. Ligatures
Lcriture arabe connat trois types de ligatures : les ligatures contextuelles, les
ligatures linguistiques et les ligatures esthtiques. Une ligature contextuelle est une
chane de caractres prenant des formes spciales suivant leur position dans le mot en
obissant des rgles grammaticales strictes et lies uniquement lcriture. Les
ligatures linguistiques sont indispensables pour lcriture dune langue donne et
obissant des rgles grammaticales. Souvent elles ont un statut de lettre et parfois
mme une place part dans le dictionnaire, ce qui les rapproche des digraphes. Les
ligatures esthtiques sont des graphies optionnelles qui existent pour des raisons
45
esthtiques, de lisibilit et/ou de tradition. On peut les remplacer par leurs
composantes sans changer la validit grammaticale, ou le sens du texte.
Figure III.6. Diffrentes combinaisons verticales possibles de caractres [BEN & al 01].
III.5.3. Vocalisation
46
Figure III.7. Ecriture voyelle.
En scrivant, certaines lettres arabes montent trs haut comme le alif surmont du
hamza ( ) , le kf ( ) et le lm () , dautres descendent trs bas comme le mm final (
), le h final ( )ainsi que le gm final ( ) et enfin on trouve des lettres trs petites
comme le b ( ), le mm ( ), et le t ( ) mdianes. En typographie, pour que les
petites lettres soient lisibles et distinguables, on est oblig de bien espacer les lignes.
Par consquent, on met beaucoup de mots dans une ligne mais beaucoup moins de
lignes dans une page quavec les caractres latins. En plus lusage des signes de
vocalisation oblige despacer encore plus les lignes.
47
(b) Exemple d'longations horizontales.
les outils de test et de validation tels que les bases de donnes dimages servent
valider les rsultats obtenus et valuer de manire unifie les divers travaux
raliss dans des environnements diffrents.
Dautres, tels que les lexiques et les dictionnaires de validation sont
indispensables pour amliorer les performances des systmes de reconnaissance,
suite leur absence, le post- traitement (lexical, syntaxique ou smantique) est trs
peu utilis dans les systmes de reconnaissance de lcriture arabe.
Lcriture arabe a un certain nombre de particularits telles que la forte
dpendance de la calligraphie du caractre de son contexte, la complexit et la
multiplicit des graphies des lettres, la variabilit des liaisons inter-caractres ou
des ligatures horizontales et verticales ainsi que la prsence de chevauchements.
Ces particularits compliquent les tches de choix des procdures de
prtraitement, de la segmentation de textes arabes, de la slection et de
lextraction des primitives.
48
constituant le mot. En effet, une reconnaissance au niveau des caractres ncessite
gnralement une segmentation au pralable, un processus souvent assez dlicat pour
une reconnaissance fiable. Plusieurs travaux ont t raliss dans ce domaine, nous
citons quelques uns dans le tableau suivant :
Syntaxique, Comparaison de
[ALM 87] Mots hors-ligne structurelles 91 %
chanes
Mots manuscrit
[GOR 92] hors-ligne Structurelles Syntaxique 90 %
Appariement de
[ABU 94] Caractres hors-ligne Structurelles 73.6-99.4 %
graphes flous
Hors-ligne, manuscrit
[MAS 00a] Structurelles MMC 96%
Hors-ligne, imprim,
[AMI 00] multifontes Structurelles Arbre de dcision 92%
Hors-ligne, imprim, Rseaux de neurones Fuzzy
[AMI 00b] multifontes Structurelles 95.25%
ARTMAP
Transformation polaire
Hors-ligne, manuscrit
[KHO 00] suivie par transformation de Modlisation par templates 93.2%
Fourier
Pseudo-Mots Rseaux de
[ALO 02] Zoning, Structurelles neurones et 69.85-73.53 %
HMMs discrets
Statistiques, structurelles, Rseaux de neurones (3
[AZI 02] Hors-ligne, manuscrit -
gomtriques types combins en parallle)
Syntaxique base
[AMI 03] Caractres hors-ligne structurelles sur la logique 86.65 %
inductive
HMMs discrets 72-87
[KHO 03] Mots hors-ligne Structurelles
%
Transformation Loeve HMMs semi- continus
Mots hors-ligne 89 %
[PEC 03] Karhunen
[BUR 04] Hors-ligne, manuscrit KNN, moments - 94%
49
Mots hors-ligne Structurelles, zoning Syntaxique et HMMs
[ALM 04a] 60 %
discrets
III.8. Conclusion
Nous avons prsent dans ce chapitre, lorigine de lcriture arabe et leurs principales
proprits morphologiques et typographiques.
Nous constatons que malgr, les difficults de l'criture arabe, on peut avoir des
points de similitude avec l'criture latine, c'est--dire lors de construction d'un
systme de reconnaissance avec une base des images de mots arabe manuscrite ou
imprime, on suit les mme tapes que celle latine, sauf qu'il existe des certaines
diffrences capitales entre eux aux niveaux de l'extraction des caractristiques surtout.
Nous avons aussi pass en revue dans la dernire partie de ce chapitre certains travaux
qui ont t raliss dans le domaine de la reconnaissance hors-ligne de lcriture
arabe. Daprs ce chapitre ; nous dduisons que les problmes majeurs dans ce
domaine se ramnent la cursivit de l criture et la sensibilit de certaines
caractristiques topologiques de larabe ; la variabilit des liaisons inter-caractres
ou des ligatures horizontales et verticales ainsi que la prsence des chevauchements.
Ces difficults rendent le choix des procdures de prtraitement, de segmentation et
dextraction des caractristiques plus dlicate.
50
CHAPITRE 4
Approche globale
pour la
reconnaissance
de mots arabes
manuscrits
51
Chapitre 4. Approche globale pour la reconnaissance de mots arabes manuscrits
IV.1. Introduction
Dans les chapitres prcdents nous avons prsent entre autres les diffrents aspects et
les diffrentes approches dun systme de reconnaissance de forme, nous avons aussi
discut quelques approches et architectures concernant la reconnaissance de mots.
Nous avons consacr ce chapitre pour dcrire larchitecture et les approches
proposes pour mettre en uvre un systme de reconnaissance de mots arabe
manuscrits dans un vocabulaire limit. Nous nous sommes bases sur ltude des
spcificits de lcriture arabe et celles du vocabulaire considr, notamment celui des
48 mots des willayas algriennes.
Ce chapitre est structur en plusieurs sections, en premier lieu, nous dcrivons
larchitecture gnrale du systme, qui est bas sur une combinaison parallle entre
deux approches distinctes exposes dans le prsent chapitre.
Dans la deuxime section nous prsentons les choix effectus et les procdures
utilises pour les tapes de prtraitement et dextraction de caractristiques. Ces
tapes sont communes aux propositions prsentes dans ce chapitre : lapproche
statistique et lapproche neuronale.
La troisime section sera consacre la description des diffrentes mthodes choisies
dans ltape dextraction de caractristique en expliquant en dtail ces mthodes, cette
tape est considre comme le noyau de notre proposition.
La dernire section, sera ddie pour dcrire les approches choisies, en expliquant le
principe de fonctionnement et les oprateurs des algorithmes KPPV ; K-MEANS et
FCM ainsi que lapproche neuronale PNN.
52
parallle, chacun des ces classifieurs est responsable de connaitre le mot entier ; Il
doit apprendre les caractristiques globales du mot. La diffrence entre eux cest la
faon de traiter les caractristiques du mot selon le principe de fonctionnement de
chacun des ces classifieurs choisis.
Cette fusion est faite soit de manire dmocratique, dans le sens o elle ne favorise
aucun classifieur par rapport un autre, o bien de manire dirige et, dans ce cas, on
attribue la rponse de chaque classifieur un poids en fonction de ses performances et
ceci est en fonction gnralement du taux obtenu lors de la phase d apprentissage ;
Dans ce chapitre, nous allons dtailler le travail ralis, en donnant dans un premier
temps le schma gnral du systme propos avant de dcrire chaque tape ralise.
Acquisition de limage
Prtraitement
Dcision finale
Mot reconnu
Nous avons fait le choix dutiliser ces quatre types de classifieurs pour plusieurs
raisons. Tout dabord, chacun des classifieurs est diffrent de lautre : la mthode
FCM ne ncessite aucune information priori sur les donnes traiter, elle a t dj
employe avec succs dans la segmentation dimage. De plus, elle permet une
donne dappartenir deux classes o plus (une donne un degr dappartenance
chaque classe). Contrairement la mthode K-MEANS o une donne doit appartenir
ou non une classe. Nous avons pens dimplmenter ces deux mthodes pour
53
comparer les performances entre les rsultats obtenus en dduisant limportance de la
logique floue dans le domaine de la classification des images (dans notre cas les
images reprsentent des mots arabe manuscrits). La troisime mthode implmente
cest la mthode KPPV. lopposition de la mthode FCM, il ncessite une base de
rfrence (des images des mots dj classes). De plus, ce dernier entre dans la
famille des algorithmes dits paresseux : linverse de beaucoup dautres mthodes
dapprentissage automatique (tels que la rgression logistique, les rseaux de
neurones artificiels, les mthodes noyaux, etc.) aucun apprentissage ne prend
rellement place, cest--dire quil ny a pas de phase de dtermination de paramtres
dune fonction par le biais dune optimisation mathmatique [BEL 01]. La dernire
mthode choisie est la PNN qui est incluse dans la famille des rseaux de neurones,
qui ont de grandes capacits de classification et qui ont montr leurs aptitudes en
reconnaissance dcriture [HAI 07, AZI 02b].
Dans la section suivante, nous allons prsenter les prtraitements effectus et la phase
dextraction de caractristiques dcrite dans la section IV.7.
Ngatif
Seuillage
Lissage
Image prtraite
54
Concernant le prtraitement, un grand problme se pose ; cest celui des boucles qui
risquent dtre bouches ou ouvertes, et aux points diacritiques qui peuvent tre limines
la suite de certaines oprations de prtraitement, ou encore confondues avec le bruit.
En effet, le prtraitement risque daltrer surtout la forme des points diacritiques de manire
les confondre avec le bruit sils sont trop amincis.
Nous avons effectu nos exprimentations sur des 48 mots de willayas algriennes
crits de manire contrainte pour pouvoir appliquer des prtraitements assez
classiques. Les principales contraintes sont :
Ecriture du mot sur une seule ligne (criture guide) avec peu ou pas
dinclinaison.
Absence de fond (utilisation de fond blanc sans texture).
Sparation claire entre les mots.
[AYA 04] prsente une dichotomie des diffrents types dcriture ainsi les classes de
lcriture manuscrite. Sur laquelle nous positionnons nos travaux. Il sagit de
lcriture arabe manuscrite non contraintes (figure IV.3)
Ecriture brute
Imprim MANUSCRIT
En Hors
ligne ligne
cursif
Figure IV.3. Positionnement de notre travail par rapport la dichotomie des types dcriture.
55
Daprs la figure ci-dessus : Le type dcriture trait dans notre travail.
IV.3.1. Binarisation
Initialement, les images sont en niveau de gris, elles sont dabord transformes en
images bimodal (blanc et noir). Cette mthode consiste comparer le niveau de gris
des pixels composant limage avec un seuil partir de lhistogramme. Dans notre cas
nous avons choisi dutiliser un seuil dynamique spcifi pour chaque image dduit
partir de son histogramme [BEN 00, OTS 79, PAV 82].
56
IV.3.2. Lissage
Limage de mots peut contenir du bruit d aux conditions dacquisition, par exemple.
Ce bruit peut se manifester soit par les absences de points (trous), soit par des
excroissances ou des emptements. Le lissage est une transformation locale qui ne
tient pas compte que du voisinage de chaque point de limage. La transformation la
plus frquemment utilise pour le lissage des textes hors-ligne, consiste parcourir
limage pixel par pixel, au moyen dun masque de dimensions 3*3 et modifier
ventuellement la valeur du pixel examin en fonction des ses 8 pixels voisins (nord,
nord est, est, etc.). Ce masque peut tre appliqu, par exemple, pour le bouchage des
trous et llimination des pixels isols. Les techniques de lissage permettent de
rsoudre ces problmes par deux oprations :
IV.3.2.1. Bouchage
Cette opration consiste en un paississement du trac du mot pour mieux extraire les
caractristiques .Il sagit dgaliser les contours et de boucher les trous internes la
forme du mot en lui ajoutant des points noirs [BEL 92, SAR 00].
IV.3.2.2. Nettoyage
A pour but dliminer les petites taches qui na pas pu tre limin par lopration de
lissage et les excroissances de la forme. Elle est ralise de diffrentes manires
suivant le type de bruit enlever. Lalgorithme quon a utilis pour cette tape est le
suivant :
Algorithme Lissage_Image ;
// Soit couleur_P la couleur de P (pixel) de limage avant lissage ;
Pour tout Pixel P de limage Faire
Nbre_Voisins_Noirsle nombre de d-voisins noirs du P ;
Si ( Nbre_Voisins_Noirs < 2) Alors couleur_Pblanc ;
Sinon Si ( Nbre_Voisins_Noirs > 2) Alors couleur_Pnoir ;
Sinon couleur_P ne change pas ;
FinPour ;
Fin.
57
IV.4. Segmentation de textes (Traitement dimages de haut
niveau)
Image de texte prtraite
Segmentation de mot
en lettres
Dans notre systme, nous supposons que lcriture des mots prsente peu ou pas
dinclinaison (nous navons pas trait le problme de linclinaison).
Dans lcriture arabe, la ligne de base porte une information assez importante qui
nous permet dextraire facilement les diffrentes caractristiques structurelles des
mots. Lune des raisons pour laquelle cette tape pose un problme est quune
localisation errone de la ligne de base saccompagne dune perte dinformation
irrmdiable [BEN 00, SOU 06].
58
Algorithme Calcul_ Histo_Horz ;
Initialiser un tableau Histo_Horz 0, a comme dimension le nombre de ligne dans
limage ;
Pour i Allant de 1 nombre ligne de limage Faire
Pour j Allant de 1 nombre colonne de limage Faire
Si ( couleur_pixel(i,j) = noir ) Alors
incrmenter Histo_Horz[j] de 1;
FinPour;
FinPour;
Fin.
Ligne base
La zone mdiane peut tre dfinie comme le corps principal du mot qui englobe les
lettres qui nont ni ascendant, ni descendant, voir Figure (IV.9). La localisation de la
zone mdiane nous a permet la dtection des extensions (hautes et basses) dans
lcriture.
Lide quon a utilis pour localiser cette zone est destimer sa hauteur (en pixels) par
rapport la ligne de base. Nous avons ralis une analyse statistique de sa hauteur par
rapport la ligne de base sur un ensemble dchantillons qui contient 100 mots crits
par diffrents scripteurs, et qui sont homognes, cest--dire que lensemble des
images a t scann avec la mme rsolution. Les rsultats quon a obtenus montrent
quil existe une certaine stabilit pour lensemble des chantillons.
Zone mdiane
Ligne base
59
En effet, pour la plupart des chantillons la hauteur de la zone mdiane est comprise
entre 12 et 16 pixels, bien sr quil nexiste pas une estimation parfaite, cause de la
grande variabilit de lcriture et lpaisseur du trait de lcriture.
LBH
Zone mdiane
LB Hauteur=14 pixels
Donc aprs avoir localiser la ligne de base, la zone mdiane peut tre cerne de la
manire suivante :
Soit LB : Ligne de base,
Et soit LBH : Ligne base haute, voir Figure (IV.10),
LBH=LB seuil ; o seuil [12,16].
Enfin, le corps du mot ou la zone mdiane est localise entre LB et LBH.
La zone suprieure est la zone qui contient les dpassements hauts dans un mot. Elle
nous permet de dtecter les hampes et les points diacritiques hauts.
60
Pour localiser cette zone il suffit de dtecter la ligne haute, voir Figure (IV.11). Etant
donn que limage est binaire et lisse et qui ne contient pas des bruits (pixels noirs
qui nappartiennent pas la forme (le mot traiter). Nous balayons limage ligne par
ligne, colonne par colonne et de haut en bas, ds que nous trouvons le premier pixel
noir nous considrons sa ligne comme une ligne haute.
Enfin la zone suprieure est cerne entre la ligne haute et la ligne base haute.
La zone infrieure est la zone qui contient les dpassements bas dans un mot. Elle
nous permet de dtecter les jambages et les points diacritiques bas.
Le principe de localisation de la zone infrieure que nous avons utilis, est le mme
que pour la localisation de la zone suprieure, il suffit de dtecter la ligne basse, voir
Figure (IV.12). Nous supposons que limage est binaire et lisse et qui ne contient pas
des bruits (pixels noirs qui nappartiennent pas la forme).nous balayons limage
ligne par ligne, colonne par colonne mais cette fois ci de bas en haut, ds que nous
trouvons le premier pixel noir nous considrons sa ligne comme une ligne basse.
Nous obtenons alors la zone infrieure qui est cerne entre la ligne de base et la ligne
basse.
Il se peut quil existe des mots qui ne possdent pas des zones suprieures et/ou des
zones infrieures, ce sont les mots qui nayant pas des ascendants et des points
diacritiques hauts et/ou des descendants et des points diacritiques bas.
61
Figure IV.13. Les 11 composantes connexes qui forment le mot Oum-el-bouaghi .
Lide que nous avons utilise est ltiquetage de chaque CC dans le mot.
L'tiquetage consiste attribuer un label, tiquette ou numro diffrent pour chaque
CC et identique pour tous les pixels d'une mme composante. Il existe de nombreux
algorithmes ralisant cette fonction. Ils dpendent de la connexit considre et se
diffrencient aussi par leurs approches squentielles ou parallles [DAR 94].
Une CC peut alors tre extrait par l'intermdiaire de son tiquette pour faire un
traitement spcifique. La figure illustre le rsultat de ltiquetage, chaque CC
correspond une couleur (non noire) dans l'image de droite.
IV.5. Squelettisation
Un algorithme de squelettisation efficace doit permettre la rduction de la quantit de
donnes et la prservation uniquement des caractristiques essentielles de la forme, de
plus, il doit avoir les proprits suivantes :
1) Prservation de la connexit de la forme.
2) Convergence vers des squelettes dpaisseur unitaire.
3) Approximation de laxe mdian de la forme.
4) Rduction maximale de donnes.
La conception des algorithmes de squelettisation ddis certains types dcriture
comme le latin, chinois, etc. tait un domaine de recherche trs actif, et la littrature
en est trs abondante [LAM 92]. En revanche, les algorithmes destins
spcifiquement la squelettisation de lcriture arabe restent relativement peu
nombreux [MAH 91, ALT 95, ALP 97]. Notons que lapplication directe des
algorithmes de squelettisation conus notamment pour lcriture latine ou chinoise sur
lcriture arabe ne permet pas dobtenir des squelettes adapts, du fait de la prsence
de marques diacritiques, et la squelettisation de ces marques par ces algorithmes peut
les faire disparatre ou les dformer totalement. Par exemple, un point diacritique
comme dans la lettre " "peut se transformer aprs squelettisation en un petit trait, ce
qui nest plus adapt pour lcriture arabe manuscrite, car il est trs frquent que
certains scripteurs utilisent un petit trait la place de deux points comme dans la lettre
62
" ". A cause de ces problmes, les marques diacritiques sont parfois extraites de
limage dcriture avant la squelettisation puis sont classifies sparment [ZAH 90],
[BEN 07]
Dans notre cas, La mthode utilise consiste appliquer des amincissements
successifs sur limage binarise jusqu' ce que le mot rsultant ne contienne que des
lignes d'paisseur 1 pixel. La mthode ncessite l'emploi successif de 8 masques.
Cette phase doit assurer un maximum de fiabilit, car les traitements ultrieurs ne
vont plus manipuler limage dorigine mais plutt les rsultats fournis par ce module,
donc le choix des primitives extraites est primordial pour garantir le succs dune
mthode de reconnaissance de forme, pour cette raison cette phase prsente lobjet de
notre travail.
La reconnaissance dune forme est base sur une description de celle-ci. La
description peut ainsi tre vue comme une modlisation mathmatique de lobjet
permettant un calcul de distance entre deux ou plusieurs modles. Il existe un trs
grand nombre de descriptions possibles pour une forme suivant linformation
63
modliser [TRI 96] et les invariances exprimer. LONCARIC [LON 98] distingue
trois classifications possibles pour les descripteurs de forme :
La premire, la plus courante, vient de PAVLIDIS [PAV 78] qui considre dune
part les descripteurs bass sur la frontire (descripteurs externes) et dautre part
ceux bass sur la forme elle-mme (descripteurs globaux ou internes).
La seconde consiste diffrencier les descripteurs numriques (scalaires ou
vectoriels), des descripteurs qui ne le sont pas, galement dsigns comme
techniques appartenant au domaine spatial.
Enfin la troisime classe les descripteurs selon quils prservent entirement ou
seulement partiellement linformation contenue dans la forme.
64
Structurel Statistique
Heuristique Caractristiques discrites zonage
Code de Freeman Volumtrique
Systmatique Spline Profil du contour
graphe Descripteurs de Fourrier
Les moments sont utiliss en physique pour dcrire la rpartition des masses dans un
corps. En analyse dimage, on peut envisager la mme dmarche en associant le
niveau de gris dun point de limage la mme lmentaire en un point. Donc les
moments fournissent des informations concernant larrangement spatial de limage.
Les polynmes de Zernike ont t dfinis en 1934 dans le cadre de la thorie de la
diffraction optique [ZER 34]. Drivs de ces polynmes, les moments ont t utiliss
par de nombreux auteurs en reconnaissance de caractres [TEA 80, KHO 90a, KHO
90b, BEL 91b]. Plusieurs tudes montrent galement la supriorit de ces descriptions
par rapport dautres approches [TEH 88, KIM 00]. Ils sont dfinis par les quations
suivantes :
4.1
65
Avec
4.2
4.3
Les moments de Zernike est donc la projection dune fonction f(x,y) dcrivant une
image sur un espace de polynmes orthogonaux engendr par [ZHE 00].
On dsigne par moments de Zernike une srie de calculs utilise pour transformer une
image en un vecteur de composantes relles reprsentant les moments Zij.
Les moments sont invariants par rotation, translation et changement dchelle (aprs
normalisation de la taille de la forme). De plus, grce lexploitation dune base de
fonctions orthogonales, ces moments sont peu corrls. Ces caractristiques sont trs
importantes pour dcrire les mots arabes cause de ses grandes variations dcritures
comme nous avons prsents dans le chapitre 1 section III.3)
Lordre des moments possde une grande influence sur la conservation de
linformation angulaire. Plus lordre est lev et plus les variations angulaires dcrites
sont fines. Dans notre systme ; nous avons utilis les 100 premiers moments de
Zernike.
Comme pour une forme, limage I dun contour peut tre vue comme une application
g(x, y) {0, 1} o (x, y) I sont les coordonnes des pixels de limage. Si le pixel
(x, y) est en dehors du contour g(x, y) = 0 et g(x, y) = 1 sil appartient au contour.
Il y a plusieurs mthodes pour obtenir le contour dune forme binaire. Les plus
simples sont les mthodes morphologiques (rosion, dilatation,etc) [ARR 02].
Le contour interne dun objet sobtient par une rosion dun objet A (suivant
llment B) suivie dune diffrence :
A (A B) 4.4
Le contour externe sobtient par une dilatation la forme partir dun masque 3 3
plein puis en lui soustrayant limage de dpart (figure III.17):
A (A B) 4.5
66
Figure IV.17. Extraction morphologique de contour externe, (a) image originale, (b) image
dilate, (c)contour externe.
Lopration de traage des contours de limage sert dcrire limage dun mot sous
forme dune liste de contours pouvant contenir des contours externes correspondant
soit aux composantes connexes primaires du mot (corps principal) ou ses
composantes secondaires (points diacritiques), soit des contours internes (occlusions).
Cette oprations nous a permettre de dterminer la chane de code de Freeman de
chaque trac du mot, qui va nous donner par son alphabet un critre de similarit nous
permettant de mettre en correspondance les contours de deux images stroscopiques.
Son principe est de dcrire les arcs formant un contour par une suite de vecteurs de
taille lmentaire et de direction choisie dans un ensemble fini. La direction d'un arc
est code par une valeur comprise entre 0 et 7 dans le sens trigonomtrique.
IV.7.4. Zonage
Le principe de cette mthode est rsum en trois tapes suivantes :
C j Rj N 4.6
O
67
Et les points diacritiques qui sont :
Lcriture arabe sous sa forme imprime ou manuscrite est semi-cursive par nature,
elle impose donc la notion de sous-mot et prsente une certaine richesse en
diacritiques, permettant de diffrencier des lettres ayant la mme forme de base.
Pour dcrire les diffrentes caractristiques cites ci-dessus nous avons besoin de
certaines informations lmentaires qui sont:
68
Ligne haute
Hauteur suprieure(HS)
Ligne base haute
Hauteur mdiane(HM)
Ligne de base
Hauteur infrieure(HI)
Ligne basse
Figure IV.18. Illustrations des diffrentes informations ncessaires pou lanalyse dune
composante connexe.
Comme on a indiqu pour les mots, certaines composantes connexes aussi peuvent ne
pas avoir des zones infrieures et/ou des zones suprieures. Alors, pour chaque
composante connexe dtecter lors de ltape de prtraitement, on a effectu un certain
nombre de traitement pour extraire leurs caractristiques structurelles, cest ce quon
va discuter dans ce qui suit.
Dans lcriture arabe, un mot se compose gnralement dune ou plusieurs
composantes connexes, chacune contient un ou plusieurs caractres, et contient
diffrentes caractristiques structurelles comme :
69
Les figures (IV.19.a et IV.19.b) suivante rcapitulent ces caractristiques :
6 composantes connexes
Test Vrification_Point_Diacritique ;
Si ((AC = ACS ) et ( HC <= HM )) Alors cest un point diacritique haut
Sinon Si ((AC = ACI ) et ( HC <= HM )) Alors cest un point diacritique bas
Sinon composante connexe nest pas un point diacritique ;
En effet dans un point diacritique haut, tout les pixels qui le constituent se situent
dans la zone suprieure du mot et sa hauteur ne dpasse pas la hauteur mdiane, cette
dernire tait dmontre exprimentalement. De la mme faon on dtecte les points
diacritiques bas dans la zone infrieure.
Si le rsultat du test assure que la composante connexe est un point diacritique. Nous
devons classer ce point selon leur types (point unique, deux point lis), comme le
montre le tableau ci-dessous :
70
catgories
Catgorie1 Catgorie2 Catgorie3
types
Un point _ _
Dans un premier temps, on va dterminer la catgorie1 pour les trois types des points.
Apres une tude statistique sur la densit des pixels de chaque type on a constat les
rsultats dans lorganigramme dans la figure IV.20, tous les seuils utiliss
ultrieurement dpendent du trac de lcriture et la rsolution du capteur utilis pour
lacquisition.
Point diacritique
Oui Non
AD>seuil1
3P Oui Non
AD>seuil2
2P 1P
1P : point unique.
71
Pour la catgorie2 et la catgorie3 on aperoit que ce sont un mlange entre les points
diacritiques de la catgorie1, donc aprs avoir dterminer chaque type des points
diacritiques dans tout le mot (lorganigramme prcdent), on effectue une analyse
base sur lespace entre les points diacritiques dans la zone suprieure et la zone
infrieure sparment.
D2 D2
D2 D1 D3
D1
[a] : trois points lis. [b] : deux points lis. [c] : trois points lis.
72
Les points diacritiques D1,D2 et D3
D1=3P
3P (donc D1=1P)
D1=2P
esp1<S esp1<S
2P 1P
D2=1P
3P
esp2<S
S : seuil.
3P 2P 1P : point unique.
oui non
oui
73
Nous passons maintenant la dtection du reste des caractristiques structurelles si le
rsultat du test assure que la composante connexe nest pas un point diacritique.
Copier limage du mot dans une nouvelle image, et inverser les couleurs de limage
binarise.
Dtecter le nombre de groupes de pixels blancs.
Nombre de boucles nombre de groupes de pixels blancs 1.
Fond de limage
Les ascendants et les descendants sont les primitives les plus utilises dans la
reconnaissance de lcriture arabe. Elles sont dtectes par une monte ou une
descente qui se termine en dehors de la zone mdiane dtermine partir de la ligne
de base.
74
IV.7.5.3.1. Dtection des jambages
Une composante connexe dun mot arabe contient au maximum un seul jambage, le
test suivant vrifie lexistence de ce jambage ou non :
Test Vrification_Jambage ;
Seuil_J (HM / 2) ;
Si (HCI >= Seuil_J ) Alors il existe un jambage
Sinon il nexiste pas un jambage ;
Par opposition des jambages, une composante connexe dun mot arabe peut contenir
plusieurs hampes, alors le test sur lexistence ne suffit pas, mais un autre traitement
est ajout pour compter le nombre de ces hampes sils existent.
Test Vrification_hampe ;
Seuil_H HM ;
Si (HCS >= Seuil_H ) Alors il existe des hampes
Sinon il nexiste pas des hampes ;
Le test prcdent nous permet de vrifier lexistence des hampes dans une
composante connexe, le Seuil_H tait obtenu exprimentalement et il est gal la
hauteur de la zone mdiane.
Si le test prcdent affirme quil existe des hampes dans la composante on fait appelle
lalgorithme suivant pour calculer leurs nombre :
Algorithme Calcul_Nombre_Hampe ;
Seuil (HCS / 3) ;
NiveauLigne haute de la composante + Seuil ;
On fait une projection verticale de la ligne dordre Niveau de limage ;
On calcule le nombre des hampes dans lhistogramme vertical rsultant ;
75
Nous pouvons expliquer cet algorithme schmatiquement (Seuil est obtenu par
exprience) :
2 hampes dtectes
Niveau
Zone mdiane
Pour la construction de la base dimages, nous avons obtenu 300 pages de formulaires
remplis, les documents ont t scannriss et les mots qui y sont contenus ont t
extraits et tiquets de manire automatique (daprs un algorithme ralis par [BEN
00]). La phase dtiquetage consiste classer toutes les images, sachant que le
vocabulaire des noms de wilayas algriennes contient 48 mots, nous avons conu un
modle de formulaire pr-imprim constitu de trois pages (16 mots/page), chaque
mot devant tre recopis trois fois par chaque scripteur (limage contient un seul mot).
La base contient donc 14400 images de mots manuscrits (les 48 mots du vocabulaire,
crits 3 fois, par chacun des 100 scripteurs). Dans ce qui suit, nous prsentons en
chantillon des trois pages des formulaires (voir annexe1).
76
N Description Mot N Description Mot
1 1- Tebessa00 25 3- Tiaret00
2 1- Jijel00 26 3- Tamanrasset00
3 1- Tissemsilt00 27 3- Tippaza00
4 1- Khenchela00 28 3- Ouargla00
5 1- Mila00 29 3- Illizi00
6 1- MSILA00 30 3- Relizane00
7 1- Mascara00 31 3- Medea00
8 1- Setif00 32 3- Blida00
9 1- Constantine00 33 3- Naama00
10 2- Saida00 34 4- Ghardaia00
11 2- Bechar00 35 4- Oran00
12 2- Bejaia00 36 4- SidiBELABES00
13 2- Annaba00 37 4- Bouira00
14 2- Batna00 38 4- Alger00
15 2- Biskra00 39 4- AinDefla00
16 2- Mostaganem00 40 4- Eltaref00
17 2- Skikda00 41 5- TiziOuzou00
18 2- Tlemcen00 42 5- Boumerdes00
19 2- ELbayad00 43 5- Adrar00
20 2- Ghuelma00 44 5- Eloued00
21 2- Chlef00 45 5- Laghouat00
22 2- Djelfa00 46 6- BBArreridj00
23 3- Tindouf00 47 6- SoukAhras00
24 3- AinTemouchent00 48 6- OumElBouaghi00
IV.9. Reconnaissance
Tous les types de caractristiques (statistiques, structurelles, gomtriques, transformations
globales) et les mthodes de classification (statistique, structurelle, stochastique,
connexionniste, logique flou,..) qui existent dans la littrature sont pratiquement utilises
dans la reconnaissance de lcriture arabe (voir section III.3).
Il y a trois faons daborder cette problmatique [VIN 02]. Soit le systme reconnat
le mot comme une entit entire et indivisible, il sagit dune approche globale ou
holistique [ARR 02]. Soit il reconnat le mot partir de ses caractres pralablement
segments, il sagit dune approche analytique [SAY 73, ARR 02]. Soit il nutilise
que certaines proprits et raffine sa description du mot par rebouclage, nous
parlerons alors de systmes bass sur la lecture humaine [ARR 02].
A partir ce que nous avons vue dans le paragraphe ci-dessus, nous proposons une
combinaison entre quatre types de classifieurs en focalisant la premire approche
(globale). Dans notre systme nous allons aborder la reconnaissance de mots arabes
en appliquant deux mthodes statistiques KPPV ; K-MEANS et FCM, et une
connexionniste en utilisant le rseau PNN qui est spcifique au problme de
classification. Nous obtenons un systme qui combine paralllement les sorties de ces
classifieurs qui sont dcrit en dtails dans le chapitre prcdent.
77
Notre mthode comporte deux phases principales : la slection des attributs par Les
trois types de descripteurs cits ci-dessus (moment de Zernike, code de Freeman et
Zonage) ; et la classification des mots partir des ces attributs. Nous allons dans cette
partie prsenter chacune de ces deux phases ainsi que les problmes rencontrs et les
choix effectus.
Il faut noter que, comme beaucoup de techniques sont utilises en REM, lapproche
retenue pour notre systme dans ce domaine en tant que reconnaissance de mots est
celle base sur le calcul des vecteurs de caractristiques. En effet, les caractristiques
retenues pour notre dmarche sont celles bases sur le zonage avec le calcul de
densit des pixels, les moments de Zernike et code de Freeman. Les 133
caractristiques retenues (16 pour le zonage (Daprs la dcomposition choisie, nous
obtenons 16 caractristiques, chacune reprsente la concentration des points blancs.
O chaque valeur reprsente la densit de points blancs prsents dans chaque zone
(lire le tableau ligne par ligne de la zone 1 la zone 16), 100 pour les moments de
Zernike et 8 pour le code de Freeman), et les 9 caractristiques structurelles. Toutes
ces caractristiques constituent les composantes du vecteur de caractristiques utilis
pour la reconnaissance. De ce fait, les vecteurs de caractristiques sont calculs pour
chaque mot et stocks dans trois bases : une pour les caractristiques de zonage, une
pour les moments de Zernike et lautre pour la chaine de Freeman.
La difficult du choix des caractristiques rside dans le compromis tablir entre les
trois contraintes suivantes:
78
IV.9.2. Classification par les mthodes implmentes
"Comme chaque mthode de classification a ses avantages et ses dfauts, nous
pouvons dduire que la performance d'un systme peut tre augment de manire
significative en combinant plusieurs classifieurs." [SUE 98].
Un classifieur KPPV ncessite avant tout la cration dune base de rfrence, qui est
constitue dun nombre dchantillons (mots), Chaque entre sera compare avec
chaque lment de la base de rfrence (images des mots ayant dj t classes). La
comparaison seffectue en calculant la distance entre les deux (distance euclidienne),
Puis attribuer le mot la classe la plus reprsente parmi les K plus proche delle
(auxquels la distance est minimale). En se basant sur ses caractristiques extraites.
1
2
2
d1 X , Y X i Yi 4.7
i 1
Etape2 : consiste prendre en considration les k mots les plus proches voisins du
candidat inconnu y, afin de prendre la dcision le concernant. On slectionne la classe
la plus reprsente parmi les k votes o le mot y appartient lensemble {X1,
X2, .Xk} dont la distance est minimale.
79
IV.9.2.2. Classification par la mthode C-Moyenne Floue
Une des caractristiques du raisonnement humain est quil est bas sur des donnes
imprcises ou incompltes, un ordinateur, lui, est bas sur des donnes exactes do la
ncessit de dvelopper une nouvelle logique dite logique floue cette dernire est une
extension de la logique boolenne dans laquelle les niveaux de vrits, au lieu d'tre
vrais ou faux peuvent prendre des valeurs entre 0 et 1.Il n y a en fait pas de domaine
o lon ne puisse appliquer les raisonnements propres la Logique Floue car elle a t
conue pour sadapter aux techniques de pense humaine. Nous prsentons dans la
suite une description de la mthode floue de Fuzzy C-Means clustering FCM .
La mthode C-moyenne floue est une mthode de classification itrative qui permet
de classifier les individus selon C classes [CHU 00, GUI 01]. Elle calcule chaque
fois les centres des classes et gnre la matrice dappartenance U des individus ces
classes.
4.8
Avec
4.9
Est une mtrique choisie au sens dune norme. Gnralement, il sagit de la norme
euclidienne. Ainsi 2 : distance entre le vecteur et le prototype
i. La technique de classification par FCM repose sur lalgorithme prsent dans la
figure IV.25.
80
Algorithme de FCM
- m : coefficient flou
- C : le nombre de classes
- : critre darrt
Le coefficient flou m qui est important dans la classification, fera lobjet dun
ensemble de test pour choisir la valeur optimale. Lexposant flou m est un coefficient
>= 1. Le poids de cet exposant peut tre interprt comme un paramtre de distorsion.
Le flou de la partition augmente avec ce coefficient. Un tel coefficient accentue
les faibles niveaux dappartenance et contribue donc mieux sparer les classes. Dans
cette partie, nous nous proposons dtudier linfluence de ce paramtre sur le rsultat
de la classification FCM. Nous donnant un exemple pour classer les mots ayant 6
sous-mots (la derniers partition contenant 3 mots : , , ), en
variant ce paramtre. Nous avons utilis les trois ensembles de caractristiques (voir
section IV.7). Le taux de reconnaissance sera calcul comme suit :
Taux de reconnaissance = (nombre dimages reconnues * 100)/ nombre totale
dimages.
Dans cet exemple le nombre totale= 30*3=90 images (30 images pour chaque mots).
81
Nom m 2 3 4
BBArreridj00 25 24 25
SoukAhras00 24 25 28
OumElBouaghi00 25 27 25
totale 82.22 84.44 86.66
Nom m 2 3 4
BBArreridj00 27 26 25
SoukAhras00 28 27 28
OumElBouaghi00 25 24 25
totale 90 85.55 86.66
Nom m 2 3 4
BBArreridj00 26 24 25
SoukAhras00 24 25 27
OumElBouaghi00 25 28 26
totale 83.33 84.44 86.66
La mthode K-Means, est une mthode classique de partitionnement [BOI 87]. Le but
de cette mthode est de trouver la partition et les centroides de faon minimiser la
distorsion totale D. Une procdure itrative peut tre base sur les deux observations
suivantes:
b. Une boucle faisant alterner 2 tapes jusqu stabilit des rsultats ou pour un
nombre fix ditrations :
82
Affectation des objets restants au groupe le plus proche.
Redfinition des reprsentants des groupes.
Algorithme de rsolution
Le principe de fonctionnement de lalgorithme K-means est dcrit comme suit :
Algorithme de k-means
83
IV.9.2.4. Classification par rseaux de neurones probabilistes (PNN)
84
Figure IV.28. Structure dun rseau PNN.
Avantages:
Inconvnients:
Pour pouvoir valuer les performances du systme ralis on doit passer certainement
par ltape test qui consiste bien videmment dmontrer lefficacit des mthodes
appliques savoir :
85
Nous avons dcompos le vocabulaire selon le nombre de sous-mots constituant le
mot afin de choisir le FCM adquat (nous avons obtenu 6 FCMs), nous avons fait ca
parce que nous constatons que ce type de classifieur donne des rsultats mieux
lorsque le nombre de classes ainsi que le nombre de donnes diminuent ; le mme
principe sera suivi pour les autres.
Nous avons divis notre base en deux parties, une partie pour classer les mots (270
images pour chaque nom de wilaya) et une partie pour le test (30 image pour chaque
nom de wilaya).
Une mauvaise reconnaissance se produit quand un mot test est affect une autre
classe que celle laquelle il devait appartenir. Nous avons constat que ce problme
est gnralement caus lors du calcul de sous-mots (nombre de composantes
connexes), de plus certaines composantes connexes secondaires (les points
diacritiques) seront considres comme composantes primaires cause de la variation
de lcriture et les heuristiques utilises dans notre algorithme dvaluation
dexistence ou du type de diacritiques (voir section IV.7.5.1).
Nous avons utilis des classifications simples dont les rsultats sont combins de deux
manires ; par vote de majorit puis par priorit. Les rsultats obtenus par le systme
sont rsums dans les tableaux (IV.8.ad, IV.9.a, IV.9.b) :
Avec :
Groupe1(G1) :{ , , , , , , , ,}
Groupe2 (G2) :{, , , , , , , , , , , ,
}
Groupe3 (G3) :{ , , , , , , , , ,
,}
Groupe4 (G4) : {, , , , , , }
Groupe5 (G5) : {, , , , }
Groupe6 (G6) : { , , }
Voici les rsultats obtenus utilisant les quatre types de classication avec une dcision
sans rejet :
86
KPPV
Zonage (%) Zernike (%) Freeman (%) Taux par groupe (%)
G1 67.03 k=6 56.30 k=7 64.44 k=6 62.60
G2 61.02 k=6 56.67 k=8 58.46 k=8 58.72
G3 73.93 k=10 67.90 k=8 73.33 k=11 71.72
G4 75.71 k=6 78.09 k=5 71.90 k=4 75.23
G5 87.33 k=3 85.33 k=6 86.66 k=6 86.44
G6 95.55 k=3 94.44 k=3 94.44 k=6 94.81
Taux par type de
primitives (%) 76.76 61.80 74.87
(a)
FCM
Zonage Zernike Freeman Taux par groupe
(%) (%) (%) (%)
G1 60 41.48 61.48 54.32
G2 43.33 38.72 55.13 45.73
G3 66.06 52.12 67.27 61.82
G4 64.29 67.62 66.19 66.03
G5 76.67 72 78 75.56
G6 81.11 87.78 88.89 85.93
Taux par type de primitives
65.24 59.95 69.49
(%)
(b)
PNN
Zonage Zernike Freeman Taux par groupe
(%) (%) (%) (%)
G1 73.33 62.96 72.22 74.20
G2 63.85 57.70 65.13 62.05
G3 78.18 72.73 77.88 72.12
G4 71.43 77.62 70.48 76.68
G5 86.67 82.67 85.33 84.44
G6 94.45 93.33 92.22 93.71
Taux par type de primitives
77.98 74.50 77.21
(%)
(c)
K-means
Zonage Zernike Freeman Taux par groupe
(%) (%) (%) (%)
G1 60 41.85 58.89 53.58
G2 56.41 37.95 56.41 50.26
G3 66.67 49.09 66.36 60.71
G4 62.86 64.76 61.90 63.17
G5 71.33 72 70.67 71.33
G6 86.67 87.79 85.55 86.67
Taux par type de primitives
67.32 58.91 66.63
(%)
(d)
Tableau IV.8. Rsultats de classification simple (a,, d)
87
Daprs les rsultats obtenus, nous dduisons que le type de caractristiques les plus
intressant sont les caractristiques structurelles avec les caractristiques de zonage.
Du ct des classieurs, nous notons que lvaluation paramtrique gaussienne (PNN)
donne de bons rsultats avec le zonage. De lautre ct, nous voyons que le taux de
reconnaissance augmente lorsque le nombre de classe soit plus petit dans le groupe.
Globalement les deux classieurs KPPV et PNN atteignent des rsultats comparables,
et plus intressant par rapport aux deux autres.
A lissue des rsultats prcdents, nous avons combin les quatre classifieurs , Cette
combinaison est faite soit de manire dmocratique, dans le sens o elle ne favorise
aucun classifieur par rapport un autre, o bien de manire dirige et, dans ce cas, on
attribue la rponse de chaque classifieur un poids en fonction de ses performances et
ceci est en fonction gnralement du taux obtenu lors de la phase d apprentissage ;
selon les rsultats obtenus prcdemment, nous avons donner la priorit au PNN puis
au KPPV, et les deux autres possdants la mme priorit. Les rsultats obtenus se
rsument dans les deux tableaux suivants :
88
IV.9.3.3. Influence de paramtre K sur les rsultats de la classification KPPV
Nous donnant un exemple pour classer les mots en variant le paramtre K. Nous
avons utilis lensemble de caractristiques de zonage. Le tableau suivant prsente les
rsultats obtenus :
Enfin, Nous avons valu les performances de notre systme, nous lavons teste sur
une base de 1440 images des mots. Environ 80% de ces mots ont t bien affects la
classe.
89
IV.10. Conclusion
Dans ce chapitre, nous avons prsent le travail ralis au cours du dveloppement de
notre systme, o les diffrentes phases du processus de reconnaissance de lcriture
manuscrite qui le constituent ont t dtailles.
90
Conclusion gnrale
Comme nous lavons vu en introduction de ce mmoire, une question reste ouverte :
est ce quon peut concevoir un systme de reconnaissance permettant de dchiffrer un
texte manuscrit ? La rponse a cette question, que malgr les efforts et les travaux
intensifs raliss dans ce domaine, aucun systme OCR nest jug fiable 100%.
Mais au fur et mesure les auteurs essayent damliorer les scores pour de meilleurs
rsultats.
Cependant les problmes majeurs influenant la recherche en AOCR d
principalement la complexit de la morphologie de lcriture arabe, le manque
dchange entre les chercheurs du domaine et celui dinfrastructures adquates dans le
sens budgtaire, de bases de donnes, de dictionnaires et doutils de test et de
validation. Mais dernirement plusieurs travaux ont rcemment vu le jour. La
rsolution des ces problmes serait dun apport considrable, tant au niveau
simplification de la tache de lAOCR, quaux niveaux validation et portabilit des
produits raliss.
Lcriture arabe et lcriture latine cursive ont de nombreux points communs, qui
permettent le transfert vers larabe de techniques dj prouves sur le latin. Telles
que la segmentation en graphmes, lextraction de primitives et le moteur de
reconnaissance sont les mmes que ceux utiliss pour la reconnaissance de lecriture
latine. En revanche, certaines adaptations sont indispensables pour mettre en uvre
un systme de reconnaissance de lecriture arabe : Lextraction de la bande de base
en particulier doit tre adapte. Notamment en raison de la prsence de nombreux
signes diacritiques, et galement cause de la forme des ascendants/descendants qui,
contrairement lusage dans lcriture latine, peuvent tre tendus horizontalement
sous la bande de base. Le type de classieur est galement le mme que celui utilis
dans le cadre de la reconnaissance latine.
Lobjectif principal de toute recherche est daboutir des bons rsultats, ce qui
conduit des systmes performants, mais en focalisant sur le choix de la mthode
celle qui donne au mieux que possible la bonne dcision, dans le domaine de la
reconnaissance de formes on dispose de diffrentes mthodes telles que les mthodes
statistiques, structurelles, les rseaux de neurones,, avec possibilit de les
combines nous proposons un systme multi-classifieurs qui combine paralllement
quatre mthodes de classification: KPPV ; KMEANS; FCM et le rseau PNN.
91
Toutes les phases classiques dun processus de reconnaissance ont t ralises
commenant par les prtraitements, lextraction des caractristiques et enfin la
reconnaissance. Nous avons dmontr la procdure dextraction dinformations
fondamentales qui nous aide la description globale du mot traiter. Nous avons
propos une nouvelle ide au niveau de cette dernire qui comporte : Lanalyse par
les moments de Zernike au niveau de limage binaire (taille de vecteur=100),
lanalyse par Freeman faite au niveau du contour (taille de vecteur=8), lanalyse par
zonage au niveau du squelette (taille de vecteur=16), de plus les caractristiques
structurelles du mot (taille de vecteur=9). Ainsi nous obtenons un vecteur des attributs
compos de 133 caractristiques identifiant le mot.
Les rsultats obtenus par notre approche sont encourageants, notons que nous avons
focalis notre travail sur lapproche parallle. Cette dernire ncessite l'activation de
tous les classifieurs du systme qui doivent participer de manire concurrente et
indpendante. Par contre, la dcision finale est prise avec le maximum de
connaissances mises disposition par chaque classifieur. Ds lors se posent les
problmes de prcision des informations fournies par les classifieurs et de la
confiance qu'on peut accorder chacun d'eux. Donc ce travail ne reprsente quun
point de dpart, nous lui prvoyons des possibilits dvolution : Nous voyons quon
peut augmenter les performances de systme en appliquant une approche analytique,
nous pensons que cette dernire va donner de bons rsultats puisque elle prend en
compte la lettre arabe comme entit de traitement. Donc le nombre des classes
identifier va diminuer (29 lettres arabe). Mais cette approche ncessite une tape de
segmentation qui est de mme une tache plus ardue surtout pour lcriture arabe
manuscrite qui est un peu plus complexe par rapport la latine, nous esprons dans
lavenir pouvoir intgrer cette approche dans notre systme.
92
BIBLIOGRAPHIE
[ABU 94] I.S.I. Abuhaiba, S.A. Mahmoud, R.J. Green: "Recognition of handwritten cursive Arabic
characters", IEEE Transactions on PAMI, Vol. 16, N. 6, pp. 664-672, June 1994.
[ABU 95] I. S. I. Abuhaiba, S. Datta, M.J.J. Holt: "Fuzzy state machines to recognize totally
unconstructed handwritten strokes", Image and Vision Computing, Vol. 13, N. 10, pp.
755-769, December 1995.
[ABU 96] I. S. I. Abuhaiba, M.J. J. Holt, S. Datta: "Processing of binary images of handwritten text
documents", Pattern Recognition, Vol. 29, N 7, pp. 1161-1177, July 1996.
[ABU 98] I. S. I. Abuhaiba, Holt M. J. J., Datta S., "Recognition of off-line cursive handwriting",
Computer Vision and Image Understanding, Vol. 71, N. 1, pp. 19-38, July 1998.
[ALA 05] Pr. B. ALAIN, Anh. Tuan. NGHIEM : "Reconnaissance d'criture manuscrite", 15 juillet
2005.
[AlB 94] B. Al-Badr , R.M. Haralick : Symbol recognition without prior segmentation .
Conference SPIE-EI 1994.
[ALB 95b] B. Al-Badr, S.A. Mahmoud: "Survey and bibliography of Arabic optical text recognition".
Signal processing, vol. 41, pp. 49-77, 1995.
[ALE 90] S.Al-Emami, M. Usher: "On-line recognition of handwritten Arabic characters". IEEE
Transactions on Pattern analysis and machine intelligence. Vol. 12. N7.1990.
[ALI 97] M. A. Alimi : "An evolutionary neuro-fuzzy approach to recognize on-line Arabic
handwriting", The Proceedings of ICDAR97, 4th International Conference on
Document Analysis and Recognition, Vol. 1, pp. 382-386, Ulm, Germany, August 1997.
[ALI 06] A. M. Alimi, O.A. Ghorbel : "Etude de l'influence du nombre de prototypes dans la
reconnaissance en ligne de lettres arabes moules". CNED' 94. pp 493-499. Rouen 6-7-8
Juillet 1996.
[ALM 87] H. Almuallim, S. Yamaguchi: "A method of recognition of arabic cursive handwriting",
IEEE Transactions on PAMI, Vol. 9, N. 5, pp. 715-722, September 1987.
[ALM 02] S. Al-Maadeed, C. Higgens, D. Elliman: "Adatabase for Arabic handwritten text
recognition research, Proceedings of the English IWFHR, Ontario, Canada, pp. 485-489,
2002.
[ALM 06] S.Al-Maadeed: "Recognition of off-line handwritten Arabic words using neural network
", Proceeding of GMAI06, International Conference on Geometric Modeling and
Imaging, pp. 141-114, London, England, July 2006.
93
[ALO 02] Y. Al-Ohali: "Handwritten Word Recognition Application to Arabic Cheque Proce-
ssing", PhD Thesis, Concordia University, Montreal, Quebec, Canada, February 2002.
[ALP 97] A.Alper Atici, F. T. Yarman-Vural/ "A heuristic algorithm for optical character recogni-
tion of Arabic script", Signal Processing, Vol. 62, N. 1, pp. 87-99, October 1997.
[ALR 06] H. Al-Rashaideh/, "Preprocessing phase for Arabic word handwritten recognition",
Information Transmissions in Computer Networks, Vol. 6, N.1, pp. 11-19, 2006.
(Disponible sur la toile : www.jip.ru/2006/11-19-2006.pdf)
[ALS 06] B. Alsallakh,H. Safadi : "AraPen: an Arabic online handwriting recognition system",
Proceeding of ICTTA06, 2nd IEEE International Conference on Information &
Communication Technologies: from Theory to Applications, Vol. 1, pp. 1844-1849,
Damascus, Syria, April 2006.
[ALT 95] M. Altuwaijri, M. Bayoumi: "A new thinning algorithm for Arabic characters using self
optimizing neural network", Proccedings of ISCAS95, IEEE Symposium on Circuits
and Systems, Vol. 3, pp. 1824-1827, Seattle, WA, USA, April-May 1995.
[AMA 96] J.L. Amat, G. Yahiaoui : "Techniques avances pour le traitement de linformation".
Edition CEPADUES 1996.
[AMI 82] A. Amin: "Machine recognition of hand written arabic words by the IRAC II system",
Proceedings ICPR82, 6th International Conference on Pattern Recognition, Vol. 1, pp.
34-36, 1982.
[AMI 85] A.Amin :"IRAC : un systme pour la reconnaissance et pour la comprhension de l'Arabe
crit et imprim". Thse d'tat, Universit de Nancy I. 1985.
[AMI 96] A. Amin, H.B. Al-Sadoun, and S. Fisher: "Hand-printed Arabic character recognition
system using an artificial network ". Pattern recognition, vol. 29, N 4, pp. 663-675,
1996.
[AMI 97] A. Amin:"Off line Arabic character recognition - a survey", Proceedings of ICDAR97,
4thc International Conference on Document Analysis and Recognition, Vol. 2, pp. 596-
599, Ulm, Germany, August 1997.
[AMI 00a] A. Amin : "Recognition of printed Arabic text based on global features and decision tree
learning techniques", Pattern Recognition, Vol. 33, pp. 1309-1323, 2000.
[AMI 00b] A. Amin, N. Murshed : "off-line recognition of printed Arabic words through global
features and neural networks", 4th International workshop on Document Analysis
Systems, DAS2000, Rio de Janiro, Brazil, pp. 267-277, 2000.
[AMI 03] A. Amin : "Recognition of hand-printed characters based on structural description and
inductive logic programming", Pattern Recognition Letters, Vol. 24, pp. 3187-3196,
2003.
[ANI 92] J. Anigbogu : " Reconnaissance de textes imprims mutifontes laide de modles
stochastiques et mtriques ". Thse de doctorat, Universit de Nancy I, 1992.
[ARR 02] D. Arrivault : "Apport des Graphes dans la Reconnaissance Non-Contrainte de Caractres
Manusc-rits Anciens", (Universit de Poitiers)(Diplme National - Arrt du 25 Avril
2002).
94
[AVI 96] M.Avila : "Optimisation des modles Markoviens pour la reconnaissance de lcrit", Th-
se de Doctorat, Universit de Rouen, 1996.
[AYA 04] N. Ayat : "Slection De Modle Automatique Des Machines Vecteurs De Support:
Application La Reconnaissance Dimages De Chiffres Manuscrit", thse prsente
lEcole de Technologie Suprieure comme Exigence Partielle lobtention du Doctorat
en gnie P.H.D. Montral, Le 20 Janvier 2004.
[AZI 02a] N. Azizi : "Combinaison de classifieurs neuronaux base sur la logique floue : application
la reconnaissance des mots arabes manuscrits", Mmoire de magister, Laboratoire LRI,
Dpartement d'informatique, Universit d'Annaba, Algrie, 2002.
[AZI 02b] N. Azizi, T. Sari, L. Souici-Meslati, M. Sellami : "Une architecture de combinaison floue
de classifieurs neuronaux pour la reconnaissance de mots arabes manuscrits", CIFED02,
7me Colloque International Francophone sur lEcrit et le Document, pp. 89-96,
Hammamet, Tunisie, Octobre 2002.
[BEL 91] S.O. BELKASIM, M. SHRIDHAR et M. AHMADI: "Pattern recognition with moment
invariants: A comparative study and new results". Pattern Recognition, Vol. 24, N12,
pp. 11171138, 1991.
[BEL 92] A. Belaid,Y. Belaid : "Reconnaissance des formes: Mthodes et applications ",
InterEditions, jan-vier 1992.
[BEL 01] A.Belaid : "La reconnaissance automatique de lcriture et du document", pour la Science,
octobre 2001.
[BEN 99] N.Benamara : "Utilisation des modles de Markov cachs planaires en reconnaissance de
lcriture arabe imprime ". Thse de doctorat, spcialit Gnie Electrique, Universit
des sciences, des Techniques et de mdecine de Tunis II, 1999.
[BEN 00] A. Benouareth : " Reconnaissance de l'criture arabe manuscrite par une approche hybride
". Mmoire de magister, Labo. LRI, Dpartement d'informatique, Universit d'Annaba,
Algrie, Fvrier 2000.
[BEN 01a] N. Ben Amara, A.Belaid : "Une Methode Stochastique pour la Reconnaissance de
L'ecriture Arabe Imprimee ". Ecole Nationale d'Ingnieurs de Monastir 5019 Monastir
Tunisie, Centre de Recherche en Informatique de Nancy Btiment Loria, Campus
Scientifique- B.P. 239 54506 Vandoeuvre-Ls-Nancy- France. Soumis en 2001.
[BEN 01b] N. Ben Amara1, A. Belad2 et N. Ellouze : " Utilisation des modles markoviens en
reconnai-ssance de l'criture arabe : Etat de lart". Tunisie. Soumis en 2001.
[BEN 02] N.E. Ben Amara : "Sur la problmatique et les orientations en reconnaissance de lcriture
arabe", Proceedings of the Colloque International Francophone sur lEcrit et le
Document, CIFED2002, Hammamet, Tunisia, October 2002, pp. 2-10.
95
[BEN 05] A. Benouareth, A. Ennaji, M. Sellami : " Utilisation des HMMs de Dure d'Etat Explicite
pour la Reconnaissance des Mots Arabes Manuscrits". Article soumi en 2005.
[BEN 07] A. Benouareth : "Reconnaissance de Mots Arabes Manuscrits par Modles de Markov
Cachs Dure dEtat Explicite". Thse Prsente en vue de lobtention du diplme de
Doctorat, 2007/2008.
[BIS 95] C. Bishop:Neural Networks for Pattern Recognition, University Press, Oxford, Great
Britain, 1995.
[BOR 97] A. Boris:"A Thalamocortical Algorithm That Performs Handwritten Character Reco-
gnition", dans A.C. Downton & S. Impedovo (diteurs): Progress in Handwriting
Recognition , publi par World Scientific.1997.
[BOZ 89] R.M. Bozinovic and S.N. Srihari : " Off-line cursive script word recognition ", IEEE
Transaction on Pattern Analysis and Machine Recognition PAMI, Vol 11, NO. 1, pp: 68-
83, January, 1989.
[BRE 03] S. Bres, J.M. Jolion, F. Lebourgeois : "Traitement et analyse des images numriques".
Hermes, 2003
[BRO 83] M.K. Bown: Preprocessing thechniques for cursive script word recognition", Pattern
Recognition, Vol. 16, N. 5, pp. 447-458, 1983.
[BUN 01] H. Bunke: "Recent advances in structural pattern recognition with applications to visual
form analysis". In Workshop on Visual Form, page 11 ff., 2001.
[BUR 04] P. Burrow: "Arabic handwriting recognition". Master of Science thesis. School of
Informatics, university of Edinburg, England, 2004.
[CAS 96] R. G. Casey, E. Lecolinet: "A survey of methods and strategies in character segmen-
tation", IEEE Transaction on Pattern Analysis and Machine Intelligence, Vil. 18, No. 7,
pp. 690706, July 1996.
[CHE 94] M.Y. Chen, A. Kundu, J. Zhou: "off-line handwritten word recognition using a hidden
markov model tupe stochastic network", IEEE Transactions on PAMI, Vol. 16, No. 5,
pp. 4
[CHU 00] S. Chuai-Aree,C. Lursinsap, P. Sophatsathit and S. Siripant: "Fuzzy C-Mean: A statisti-
cal feature classification of text and image segmentation method", Proc. of Intern. Conf.
on Intelligent Technology 2000, December 13-15, Assumption University Bangkok,
Thailand, pp. 279-284, 2000.
[COH 94] E. Cohen, J.J. Hull, S.N. Srihari: "Control-structure for interpreting hand-written
addresses". IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 16, N.10, pp.
10491055, octobre 1994.
[DUI 00] R.P.W. Duin and D.M.J. Tax: "Experiments with Classifier Combining Rules". Multiple
Classifier Systems (Proc. First International Workshop, MCS 2000, Cagliari, Italy, June
2000), Lecture Notes in Computer Science, vol. 1857, Springer, Berlin, 2000, 16-29,
2000.
96
[ELD 90] S. S. El-Dabi, R. Ramsis, A. Kamel:"Arabic character recognition system: a statistical
approach for recognizing cursive typewritten text". Pat. recog., Vol. 23, No. 5, pp. 485-
495 1990.
[FAH 01] M.M.M. Fahmy, S.Al Ali: "Automatic recognition of handwritten Arabic characters using
their geometrical features ". Studies in informatics and control journal (SIC journal), vol.
10, No 2, 2001.
[FAN 95] M. FANTON : "Ligatures et informatique ". Cahiers Gutenberg, no 22, September 1995,
p. 61-85.
[FAR 05] N. Farah, A. Ennaji, T. Kadir, M. Sellami: "Benefit of multiclassifier systems for Arabic
handwri-tten words recognition", ICDAR05, 8th International Conference on Document
Analysis and Recognition, Vol. 1, pp. 222-226, Seoul, Korea, August-September 2005.
[FAR 06] N.Farah, L. Souici, M. Sellami : "Classifiers combination and syntax analysis for Arabic
literal amount recognition", Engineering Applications of Artificial Intelligence, Vol. 19,
N. 1, pp. 29-39, February 2006.
[FUK 90] K.Fukunaga: Introduction to Statistical Pattern Recognition Academic Press". San Diego
, 1990.
[GAA 01] N.Gorski, V. Anisimov, E. Augustin, O. Baret ET S. Maximov: "Industrial bank check
processing: the A2iA CheckReaderTM". International Journal on Document Analysis
and Recognition, 3(4):196206, 2001.
[GON 78] R.C. Gonzalez ET M.G. Thomason: "Syntactic Pattern Recognition: An Introduction".
Addison-Wesley, 1978.
[GOR 92] H .Goraine, S. Al Emami: "Off-line arabic character recognition", IEEE Computer
Journal , pp. 71-74, July 1992.
[GUI 95] D. Guillevic: "Unconstrained Handwriting Recognition Applied to the Processing of Bank
Cheque", Doctorat thesis, Computer Science Department, Concordia University,
Montreal, September 1995.
[GUI 01] S.Guillaume : "Induction de rgles floues interprtables", Thse de Doctorat Laboratoire
danalyse et darchitecture des systmes du CNRS Toulouse Novembre 2001
97
[GUO 92] Z. Guo,R. Hall:"Fast fully parallel thinning algorithm", Computer Vision, Graphical and
Image Processing, Vol. 55, N. 3, 317-328, May 1992.
[HAS 06] A. Hassaine : "Codage De Graphemes Et Compression Sans Perte Dimages De Manusc-
rits Anciens". Master Recherche II IGI : Spcialit Informatique Graphique et Image.
[HA 96] T.M. Ha, G. Kaufmann, H. Bunke: " Text localization and handwriting recognition",
Technical report, university of Berne, 1996.
[HEU 05] L.Heutte : "Combinaison de Classifieurs Pourquoi et comment les combiner? " Universit
de Rouen, 2005.
[HO 92] T. K. Ho: "A theory of multiple classifier systems and its application to visual word
recognition". PhD, Faculty of the Graduate School of State University of New-York at
Bufallo, May, 1992.
[HUS 93] D. R. Hush, B. G. Horne: Progress in Supervised Neural Networks". IEEE Signal
Processing Magazine, pp 8-39, Janvier 1993
[IMP 97] S. .Impedevo, P.S.P. Wang, H. Bunke (Editors): "Automatic bankcheck processing",
Series in Machine Perception and Artificial Intelligence, Vol. 28, World Scientific,
1997.
[JAI 00] A. K. Jain, R.P.W. Duin, J. Mao: "Statistical pattern recognition ". A Review, IEEE
Transaction on Pattern Analysis and Machine Intelligence, Vol. 22, No 1, January 2000.
[JAN 92] B. Jang, R. Chin/:"One-pass parallel thinning analysis, properties, and quantitative
evaluation", IEEE Transactions on PAMI, Vol. 14, N. 11, pp. 1129-b1140, November
1992.
[KAR 06] H. Karim : "Une tude de lvolutivit des modles pour la reconnaissance de documents
arabes dans un contexte interactif ". Thse de doctorat soumise la Facult des Sciences
de lUniversit de Fribourg (Suisse) pour lobtention du grade de Doctor Scientiarium
Informaticarum, Thse n1513 Imprimerie St Paul, Fribourg 2006
[KAU 00] G. Kaufmann ET H. Bunke: "Automated reading of cheque amounts". Pattern Analysis &
Applications, 3(2):132141, 2000.
[KB 00] G. Kaufmann et H. Bunke: "Automated reading of cheque amounts", Pattern Analysis &
Applications, 3(2):132141, 2000.
[KER 00] S. Kermi : "Classifieur neuronal base connaissances, application la reconnaissance des
caractres arabes isols manuscrits ". Mmoire de Magister, Universit Badji Mokhtar,
Annaba, Algerie 2000.
[KHA 99] N. Kharma, R. Ward: "A New Comprehensive Database of Hand6Written Arabic Words
, Numbers, and Signatures used for OCR Testing". Proceeding of the IEEE Canadian
98
Conference on Electrical & Computer Engineering, Edmonton, Canada, pp. 766-768,
1999.
[KHO 90a] A.Khotanzad ET Y.H. Hong: "Invariant image recognition by zernike moments". IEEE
Trans. Pattern Analysis and Machine Intelligence, 12(5):489497, mai 1990.
[KHO 90b] A.Khotanzad ET Y.H. Hong: "Rotation invariant image recognition using features selec-
ted via a systematic method". Pattern Recognition, 23(10):10891101, 1990.
[KHO 00] M. S. Khorsheed: "Automatic recognition of words in Arabic manuscripts". PHD Theis,
Churchill College, University of Cambridge, UK, Also available as University of
Cambridge, Computer Laboratory Technical Report No. 495, 200.
[KIM 00] H.K. Kim ET J.D. Kim: "Region-based shape descriptor invariant to rotation, scale and
translation ". Signal Processing: Image Communication, 16(1-2):8793, septembre 2000.
[KIT 98] J. Kittler, M. Hatef, R. Duin et J. Matas : "On Combining Classifiers", IEEE Trans. On
Pattern Analysis and Machine Intelligence, 226-238, 1998.
[KUN 01] L. I. Kuncheva, C. J. Bezdek, R.P.W. Duin: "Decision templates for multiple classifier
fusion: an experimental comparison". Pattern Recognition 34, pp. 299-314, 2001.
[LAR 98] J. Larmagnac: "Thinning and line segmentation by line following technique", Proceed-
ings of SPIE98, the International Society of Photo-Optical Instrumentation Engineers,
Vol. 3305, pp. 210-219, San Jose, CA, USA, 1998.
[LEC 93] Y. Lecourtier, B. Dorizzi, P. Sebire, A. Ennaji: "MLP Modular Versus YPR--EL
Classifiers". IWANN 1993: 569-574.
[LEC 94] E.Lecolinet, O. Barett: "Cursive word recognition: Methods and strategies ". in
Fundamentals in handwriting recognition, S. Impedovo Ed., pp. 235-263, NATO ASI
Series F: Computer and Systems Sciences, Vol. 124, Springer Verlag, 1994.
[LET 95] E. Lethelier, M. Leroux ET M. Gilloux: "An automatic reading system for handwritten
numeral amounts on frenches checks. In 3th International Conference on Document
Analysis and Recognition", Montreal, Canada, pages I :9297, 1995.
[LIP 87] R.P Lippmann: An introduction to computing with neural nets ". IEEE, ASSP magazine,
April 1987.
[LON 98] S. Loncaric: "A survey of shape analysis techniques". Pattern Recognition, 31(8):983
1001, aot 1998.
99
[MAD 97] S. Madhvanath et V. Krpasundar: "Pruning large lexicons using generalized word shape
descriptors ". In 4th International Conference on Document Analysis and Recognition,
Ulm, Allemagne, page Poste, 1997.
[MAH 91] S.A. Mahmoud, I. Abuhaiba,R.J. Green/ "Skeletonization of Arabic characters using
clustering based skeletonization algorithm (CBSA)", Pattern Recognition,Vol. 24, N. 5,
pp. 453-464, 1991.
[MAH 94] S.A. Mahmoud: Arabic character recognition using Fourier descriptors and character
contour encoding ". Pattern recognition, vol. 27, No 6, pp. 815-824, 1994.
[MER 04] D. Merad : "Reconnaissance 2D/2D et 2D/3D dobjets partir de leurs squelettes", thse
de Doctorat Spcialit : Robotique, Soutenue le 13 Dcembre 2004.
[MOH 96] M. Mohamed and P. Gader: Handwritten word recognition using segmentation-free
hidden Mar-kov modeling and segmentation-based dynamic programming techniques",
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 5, pp.
548-554, 1996.
[MOO 96] B. Moobed: "Combinaison de classifieurs: une nouvelle approche", Thse de Doctorat,
Laboratoi-re LIX, Ecole Polytechnique, Palaiseau, 1996.
[MOR 03] M. E. Morita : " Automatic recognition of handwritten dates on brazilian banh cheques",
Thse de Doctorat, Ecole de Technologie Suprieure, Universit du Qubec, Canada,
2003.
[NEM 09] S. Nemouchi, N. Farah : " Reconnaissance de lEcriture Arabe par systmes Flous",
Proceedings de la Confrence nationale en Informatique, JEESI09, Alger, Algrie,
Vol.6, N.76, Mai 2009.
[OLL 99] B.Ollivier : "Une approche conomisant les traitements pour reconnaitre lcriture
manuscrite : application la de montants littraux de chques bancaires", Thse en
Informatique, Laboratoire LIX, Parie, 1999.
100
[OTS 79] N. Otsu: "Athreshold selection method from gray-level histogram ", IEEE Translations on
systems, man and cybernetics, Vol. 9, N. 1, pp. 62-66, 1979.
[PAR 89] J. Park, V. Govindaraju, S. Srihari : "Efficient word segmentation driven by uncounstrai-
ned handwritten phrase recognition", in : Proceedings of 5th International Conference on
Document Analysis and Recognition, Vol. 1, Bangalore, pp. 605-608, 1989.
[PAV 78] T. Pavlidis: "A review of algorithms for shape analysis". Computer Graphics Image
Processing,Vol. 7, N.2, pp. 243258, Avril 1978.
[PAV 81] T. Pavlidis: "A Flexible Parallel Thinning Algorithm". Proceeding IEEE Comput. Soc.
Conference. on Pattern Recognition and Image Processing. Aot. 1981, pp. 162-167.
[PAV 82] T. Pavlidis: "Algorithms for Graphic and Image Processing", Rockville, MD: Computer
science press, 1982.
[PEC 03] M. Pechwitz, V. Mrgner,"HMM based approach for handwritten Arabic word recogni-
tion using the IFN/ENITdatabase", Proceeding of ICDAR03, 7th International
Conference on Document Analysis and Recognition, Vol. 2, pp. 890-894, Edinburgh,
Scotland, 2003.
[PEC 06] M. Pechwitz,V. Mrgner, H. El Abed: "Comparison of two different feature set for off-
line recognition of handwritten Arabic words", Proceedings of IWFHR06, 10th
International Workshop on Frontiers in Handwriting Recognition, pp. 109-114, La
Baule, France, October 2006.
[QUI 86] J. R. Quinlan: "Induction of Decision Trees ", dans Machine Learning, 1:81-106, 19.
[RAB 89] L. Rabiner : "tutorial on Hiddim Markov Models and selected applications in speech
recognition", in A. Waibel, L. Kai-Fu (Eds), Readings in Speech Recognition , Morgan
Kaufmann, Palo Alto, CA, pp. 267-296, 1989.
[ROM 95] K Romeo-Pakker, H. Miled, Y. Lecouturier: "A new approach for Latin/Arabic character
segmentation".Proc. IEEE. ICDAR'95 Montreal, Canada, pp 874-877, 1995.
[SAA 85] S. Saadallah, S. G. Yacu :"Design of an Arabic character processing and transmission of
the Ara-bic language". Kuwait 1985.
[SAR 00] T. Sari : "un systme de reconnaissance de mots arabes manuscrits bas segmentation ",
Mmoire de Magistre, Laboratoire LRI, Dpartement dInformatique, Universit Badji
Mokhtar, Annaba, Algrie, 2000.
[SAR 05] Sari T., Sellami M., "Cursive Arabic script segmentation and recognition system",
International Journal of Computers and Applications, Vol. 27, N. 3, 2005.
[SAY 73] K.M. Sayre: "Machine recognition of handwritten words: a project report ". Pattern
recognition, vol.5, pp. 213-228, 1973.
101
[SEN 98] A. W. Senior, J. Rbinson: "AN off-line cursive handwriting recognition system", IEEE
Transsac-tion on Pattern Analysis and Machine Intelligence 20(3) (1998) 309-327.
[SEY 99] K. Seymore, A. McCallum, R. Rosenfeld: "Learning Hidden Markov model structure for
informa-tion extraction ". AAAI. Workshop on machine learning for information
extraction, pp. 37-42, 1999.
[SIM 84] J.C. Simon : "La Reconnaissance des Formes par Algorithmes". Masson, 1984.
[SIM 92] J.C. Simon: "Off-line cursive word recognition", Proceedings of IEEE, Vol. 80, N. 7, pp.
1150-1161, July 1992.
[SIN 99] S. Singh, A. Amin : "Fuzzy Recognition of Chinese Characters ", Proc. Irish Machine
Vision and Image Processing Conference (IMVIP99), Dublin, 8-9 September, 1999.
[SNO 02a] S. Snoussi-Maddouri,H. Amiri,A. Belaid,C. Choisy: "Combination of Local and Global
Vision Modeling for Arabic Handwritten Word Recognition", International Workshop
Frontier in Handwriting IWFHR02, Canada, pp. 128-135, 2002.
[SNO 02b] S.Snoussi-Maddouri,A. Belaid,C. Choisy,H. Amiri : " Modle perceptif neuronal vision
globale-locale pour la reconnaissance de mots manuscrits arabes", CIFED02, Colloque
International Francophone sur lEcrit et le Document, pp. 11-20, Hammamet, Tunisie,
Octobre 2002.
[SOU 97] L. Souici, Z. Zmirli, M. Sellami : " Systme connexionniste pour la reconnaissance de
larabe manuscrit ". 1res journes scientifiques et techniques (JST FRANCIL), pp. 383-
388, Avignon, France, 1997.
[SOU 06a] L. Souici-Meslati : "Reconnaissance des mots arabes manuscrits par intgration neuro-
symbo-lique", Thse de Doctorat dEtat, Labo. LRI, Dpartement d'informatique,
Universit d'Annaba, Algrie, Fvrier 2006.
[SRI 97] S. Srihari: Recent Advances in Off-line Handwriting Recognition" at CEDAR, dans A
.C. Down-ton & S. Impedovo (diteurs) : "Progress in Handwriting Recognition ",
publi par World Scientific, 1997.
[STE 99] T.Steinherz, E. Rivlin, N. Intrator: "Off-line cursive word recognition: a survey ". IJDAR,
International journal on document analysis and recognition, Vol 2, pp. 90-110, 1999.
[SUE 98] C. Y. Suen :"Rflexions sur la reconnaissance de l'criture cursive", CIFED98, premier
Congrs International Francophone sur lEcrit et le document, Vol. 14, pp : 1-8, Qubec,
Canada, Mai 1998.
[TEA 80] M. R. Teague: "Image analysis via the general theory of moments". Journal of the Optical
Society of America, Vol.70, N.8, pp. 920930, Aot 1980.
[THE 88] C.H. The, R.T. Chin: "On image analysis by the methods of moments". IEEE Transact-
ions Pattern Analysis and Machine Intelligence, Vol.10, N.4, pp.496513,Jjuillet 1988.
[TOL 90] M. F. Tolba, E. Shaddad: "On the automatic reading of printed Arabic characters", IEEE
International Conference on Systems, Man and Cybernetics Conference Proceedings, pp.
496 498, 1990.
102
[TRE 97] J.Trenkle, A. Gillies, S. Schlosser:"An off-line Arabic recognition 136 system for machine
printed documents ". Proceeding Of the symposium on document image understanding
technology (SDIUT97), pp. 155-161 1997.
[TRI 96] O.D. Trier, A.K. Jain et T. Taxt: "Feature-extraction methods for character recognition ":
A survey. Pattern Recognition, Vol. 29, N. 4, pp. 641662, Avril 1996.
[VIN 02] A. Vinciarelli: "A survey on off-line cursive word recognition". Pattern Recognition, Vol.
35, N.7, pp. 14331446, juillet 2002.
[XU 92] L. Xu, A. Krzyzak, C. Y. Seun: "Methods of combining multiple classifiers and their
applications to handwritting recognition", IEEE Transactions on Systems, Man, And
Cybemetics, Vol. 22, N. 3, pp.418-485, may/june 1992.
[YU 90] S.Yu S, W. Tsai: "A new thinning algorithm gray-scale images by the relaxation techni-
que " , Patte-rn Recognition, Vol. 23, N. 10, pp. 1067-1076, 1990
[ZAD 00] L.A. Zadeh: "From computing with numbers to computing with words - from manipula-
tion of measurements to manipulation of perceptions". In Intelligent Systems and Soft
Computing: Prospects, Tools and Applications, pp. 340, London, UK, 2000. Springer-
Verlag.
[ZAH 90] A.Zahour : "Une mthode de reconnaissance de lcriture arabe cursive", Thse de
Doctorat, Universit du Havre, France, 1990.
[ZER 34] F. Zernike: "Diffraction theory of the cut procedure and its improved form, the phase
contrast method". Physica, 1:689704, 1934.
[ZER 07] N. Zermi, M. Ramdani, M. Bedda: "Arabic handwriting word recognition based on hyb-
ride HMM/ANN approach", International Journal of Soft Computing, Vol. 2, N. 1, pp.
5-10, 2007.
[ZGH 02] R. Zeghibi : "Le codage informatique de lcriture arabe", dASMO 449 Unicode et
ISO/CEI 10646, Document numrique, Vol. 6, N. 3, pp. 155-182,2002.
[ZOU 02] H. Zouari, L. Heutte, Y. Lecourtier, A. Alimi : "Un panorama des mthodes de combinai-
son de classifieurs en reconnaissance de formes". RFIA2002, 11m Congrs
francophpne AFRIFAFIA de Reconnaissance des formes et Intelligence Artificielle, Vol.
2, pp. 499-508, Angers, France, janvier, 2002.
[ZOU 04] H. Zouari, L. Heutte, Y. Lecourtier, and A. Alimi: "Building diverse classifier outputs to
evaluate the behavior of combination methods: the case of two classifiers. Multiple
Classifier Systems", Lecture Notes in Computer Science, Springer, LNCS 3077, pp. 237-
282, 2004.
103
ANNEXE A
104
ANNEXE B
B.1. Introduction
Aprs une description dtaille de notre systme et les diffrents algorithmes
utiliss pour le modliser, on parlera de lenvironnement de dveloppement choisi
pour raliser notre application (reconnaissance de mots arabes manuscrits).
Le systme ralis est un systme de reconnaissance des 48 noms des wilayas
algriennes bas sur une approche globale mulicalssifieurs , il comporte la plupart
des phases dun processus de la reconnaissance de lcriture manuscrite, voire Figure
(IV.1) de chapitre IV.
Dans cette annexe, nous allons prsenter lenvironnement de dveloppement de notre
systme, ensuite nous allons dmontrer le fonctionnement du systme et les
diffrentes tapes qui permettent leur mise en uvre.
Module de prtraitement.
Module dextraction de caractristiques.
Module de classification :
Les K Plus Proches Voisins (KPPV).
K-MEANS
Fuzzy-C-Means (FCM).
Rseau de neurones (PNN).
108
Module de combinaison :
Par vote de majorit.
Par priorit.
Cette fentre permet une premire interaction de lutilisateur avec notre systme. Elle
contient cinq menus Fichier, Prtraitement, Analyse par, Classifier par,
combinaison. Plus dun bouton Close pour quitter le systme
109
Figure B.2. Interface de menu fichier.
110
Figure B.4. Interface de menu danalyse de mot.
111
Figure B.6. Interface de menu de combinaison.
112
3. Aprs le nettoyage de limage, nous dtectons les PAWs constituant le mot.
Et nous extrairons le squelette du mot.
113
B.3.3. Module dAnalyse
Comme nous avons vue dans le dernier chapitre, nous avons suivi trois mthodes pour
lextraction des caractristiques. Pour dmarrer lanalyse, nous cliquons sur le bouton
droite Dmarrer lanalyse . Et pour sauvegarder le rsultat danalyse, nous
cliquons sur le bouton gauche save .
114
3. Extraction de code de Freeman :
B.4. Rsultats
Pour valuer la performance de la mthode propose, des expriences ont t
ralises sur un sous ensemble de notre base de rfrence LRI relative au vocabulaire
des noms de wilayas algriennes. Ainsi, les expriences dvaluation ont t
drives sur un ensemble de 12960 images pour lapprentissage, et un ensemble de
1440 images pour le test. Le tableau B.1 prsente les rsultats du systme propos
115
Noms des
FCM(%) KMEANS(%) PNN(%)
wilayas
Tebessa 96.66 40 96.66 96.66 86.66 96.66 73.33 80 76.66
Jijel 70 23.33 63.33 63.33 56.66 63.33 73.33 50 76.66
Tissemsilt 40 63.33 33.33 33.33 30 26.66 53.33 93.33 53.33
Khenchela 70 63.33 70 60 30 63.33 76.66 60 80
Mila 53.33 56.66 33.33 56.66 53.33 53.33 50 66.66 43.33
MSILA 26.66 20 30 13.33 13.33 13.33 30 46.66 13.33
Mascara 63.33 33.33 73.33 73.33 63.33 73.33 73.33 40 73.33
Setif 53.33 20 73.33 70 63.33 70 66.66 53.33 66.66
Constantine 66.66 53.33 80 73.33 66.66 73.33 86.66 16.66 86.66
Saida 40 16.66 76.66 70 43.33 70 73.33 56.66 63.33
Bechar 60 73.33 73.33 66.66 56.66 63.33 83.33 93.33 76.66
Bejaia 60 13.33 66.66 63.33 46.66 63.33 46.66 53.33 60
Annaba 33.33 26.66 30 36.66 33.33 36.66 26.66 50 43.33
Batna 20 60 46.66 60 30 60 23.33 63.33 53.33
Biskra 43.33 40 53.33 50 26.66 50 70 33.33 50
Mostaganem 53.33 26.66 56.66 56.66 16.66 56.66 80 70 66.66
Skikda 33.33 33.33 33.33 30 2 30 63.33 36.66 33.33
Tlemcen 60 60 56.66 56.66 36.66 56.66 50 80 73.33
ELbayad 53.33 26.66 53.33 46.66 30 50 80 40 73.33
Ghuelma 36.66 50 70 70 53.33 70 66.66 33.33 73.33
Chlef 50 50 66.66 80 73.33 80 56.66 66.66 70
Djelfa 26.66 50 43.33 46.66 40 46.66 36.66 40 36.66
Tindouf 70 46.66 66.66 66.66 56.66 66.66 73.33 83.33 73.33
AinTemouchent 70 83.33 66.66 66.66 46.66 63.33 60 86.66 60
Tiaret 80 70 76.66 76.66 66.66 76.66 83.33 83.33 83.33
Tamanrasset 40 50 46.66 46.66 16.66 46.66 50 86.66 46.66
Tippaza 73.33 46.66 66.66 60 43.33 60 73.33 56.66 73.33
Ouargla 76.66 56.66 73.33 76.66 66.66 76.66 80 60 80
Illizi 76.66 43.33 66.66 73.33 46.66 73.33 86.66 50 86.66
Relizane 60 46.66 76.66 73.33 66.66 73.33 73.33 70 73.33
Medea 46.66 23.33 43.33 46.66 23.33 46.66 53.33 50 53.33
Blida 73.33 33.33 83.33 83.33 40 80 80 63.33 80
Naama 60 73.33 73.33 66.66 33.33 66.66 73.33 50 73.33
Ghardaia 83.33 70 73.33 76.66 40 76.66 86.66 66.66 83.33
Oran 73.33 50 73.33 73.33 60 73.33 70 53.33 80
SidiBELABES 73.33 83.33 76.66 73.33 60 73.33 70 80 73.33
Bouira 50 66.66 60 56.66 43.33 50 63.33 93.33 66.66
Alger 73.33 56.66 80 76.66 43.33 76.66 90 73.33 96.66
AinDefla 46.66 76.66 60 50 46.66 50 53.33 90 40
Eltaref 50 70 40 33.33 13.33 33.33 70 83.33 53.33
TiziOuzou 70 56.66 73.33 73.33 36.66 70 83.33 76.66 80
Boumerdes 83.33 70 80 76.66 40 76.66 83.33 83.33 80
Adrar 100 100 90 63.33 50 63.33 100 100 100
Eloued 46.66 63.33 56.66 56.66 33.33 56.66 70 83.33 76.66
Laghouat 83.33 70 90 90 73.33 86.66 96.66 70 90
BBArreridj 86.66 90 90 90 80 90 96.66 93.33 100
SoukAhras 96.66 80 93.33 96.66 73.33 93.33 100 93.33 80
116