Reconnaissance de l’écriture arabe manuscrite a base des machines a vecteurs de supports

Les critères d’influences sur l’OCR

On classe souvent les méthodes de reconnaissance en fonction du mode d’acquisition de l’écriture: l’écriture en-ligne :(ou dynamique) est obtenue en saisie continue et se présente sous la forme d’une séquence de points ordonnée dans le temps avec un tracé est sans épaisseur [LOR 92]. Les systèmes en ligne prennent en compte l’information chronologique des mouvements du bras du scripteur. Cette information additionnelle augmente la précision bien que souvent coûteuse en temps de calcul. Dans ce cas, la donnée est de type signal où la reconnaissance est effectuée sur des données à une seule dimension ; l’approche doit tirer profit du lever du stylo et de la représentation temporelle. De plus, la réponse en continu du système permet à l’utilisateur de corriger et de modifier son écriture de manière interactive. L’analogie avec la reconnaissance de la parole est très fréquente et il n’est pas rare de voir des chercheurs appliquer des techniques issues de ce domaine [BEL 01]. L’acquisition du tracé est assurée généralement par une tablette graphique munie d’un stylo électronique.
l’écriture hors-ligne :(ou différée ou encore statique) est obtenue par la saisie d’un texte déjà existant, obtenue par un scanner ou une caméra. Dans ce cas, on dispose d’une image binaire ou en niveaux de gris, ayant perdu toute information temporelle sur l’ordre des points. De plus, ce mode introduit une difficulté supplémentaire relative à la variabilité du tracé en épaisseur et en connectivité, nécessitant l’application de techniques de prétraitement.

Approches de reconnaissance

Il existe deux approches pour la reconnaissance des mots : la reconnaissance globale et la reconnaissance analytique
Approche globale : dite encore holistique, a une vision générale du mot ; elle se base sur une description générale de l’image du mot. Elle considère le mot comme une seule entité indivisible et le décrit indépendamment des caractères qui le constituent [BEL 01]. Cette approche présente l’avantage de garder le caractère dans son contexte avoisinant, ce qui permet une modélisation plus efficace des variations de l’écriture et des dégradations qui peuvent l’entacher. Cependant, cette méthode est pénalisée par la taille mémoire, le temps de calcul et la complexité du traitement, qui croient linéairement avec la taille du lexique considéré, d’où une limitation du vocabulaire. Cette approche est souvent appliquée pour réduire la liste de mots candidats dans le contexte d’une reconnaissance à grand vocabulaire. Il est nécessaire, dans ce cas, d’utiliser des primitives très robustes, comme dans les travaux de Govindaraju [GOV 94], pour ne pas manquer le mot réel parmi les candidats. Le mot est ensuite trouvé à l’aide de primitives de plus en plus précises (ou d’un classifieur de plus en plus fin).
Approche analytique : permet de s’affranchir des limites de l’approche globale, mais nécessite une interprétation locale basée sur une segmentation du mot. La reconnaissance consiste à identifier les entités segmentées puis tendre vers une reconnaissance du mot, ce qui constitue une tâche assez délicate pouvant générer différents types d’erreurs [ESS 99]. La difficulté d’une telle approche a été clairement évoquée par Sayre en 1973 et peut être résumée par le dilemme suivant « pour reconnaître les lettres, il faut segmenter le tracé et pour segmenter le tracé, il faut reconnaître les lettres » [LOR 92]

Processus de reconnaissance

Du signal écriture sous ses différentes formes, à la prise de décision par un système, il existe un certain nombre d’étapes à mettre en œuvre.  Dans un premier temps une phase de prétraitement est réalisée sur l’image acquise. Elle permet de réduire au maximum la variabilité intrinsèque à l’écriture ainsi que les bruits possiblement introduits lors de l’acquisition. Une seconde étape, optionnelle, est celle de la segmentation. L’écriture étant une concaténation de caractères, il est normal lors de la reconnaissance d’essayer de segmenter l’écriture à reconnaître en caractères. La troisième étape à être réalisée directement sur les données présentées en entrée du système est l’extraction de caractéristiques. Son but est la réduction de la quantité d’information et l’extraction des caractéristiques les plus pertinentes pour la reconnaissance. La prochaine étape est la classification, c’est le stade de décision dans un système de reconnaissance de texte. A cette étape les primitives extraites dans l’étape précédente sont utilisées pour identifier le segment de texte selon des règles établies préalablement. Généralement, à ce niveau, on utilise des modèles obtenus dans une phase d’apprentissage pour classifier les données de test. La dernière étape dans un système de reconnaissance de texte est le post-traitement. Grâce à l’utilisation des informations d’ordre supérieur, cette étape peut améliorer le taux de reconnaissance en raffinant les décisions prises par l’étape précédente.
Notons que, les étapes (prétraitement, segmentation, post-traitement) ne sont pas nécessairement exécutées par tous les systèmes OCR.

Les approches hybrides et multi-classifieurs

Afin d’améliorer les performances des systèmes de reconnaissance, la tendance actuelle est de construire des systèmes hybrides ou multi-classifieurs qui utilisent des primitives et/ou des approches de natures différentes en combinant plusieurs classifieurs. Cette hybridation se base sur la complémentarité qui peut exister entre deux approches et tente aussi de les faire coopérer pour résoudre un problème donné. Chaque approche prendra à sa charge le traitement d’une tâche qui s’accommode le mieux avec son style de raisonnement, de plus elle viendrait pallier les inconvénients de l’autre.
Souici [SOU 06] propose une approche hybride neuro-symbolique pour la reconnaissance de mots arabes manuscrits. Une base de règles permet de modéliser les connaissances théoriques relatives à la description des mots en utilisant leurs caractéristiques structurelles perceptuelles. Elle est ensuite compilée sous forme d’un réseau neuronal multicouches. Ce réseau est ensuite affiné par un apprentissage empirique sur un base d’exemples.
Farah et al. [FAR 05], proposent un système multiclassifieur qui combine diverses sources d’informations pour reconnaître les 48 mots manuscrits appartenant au vocabulaire des montants littéraux. L’étape de reconnaissance est effectuée par une combinaison parallèle de trois types de classifieurs (réseau de neuronal de type perceptron muticouches, K plus proches voisins, K plus proches voisins flou) utilisant des caractéristiques globales perceptuelles des mots (nombre de sous mots, ascendants, descendants, boucles et points diacritiques). Le contexte grammatical des montants littéraux est utilisé pour prendre une décision finale sur les mots candidats obtenus. Après l’extraction des caractéristiques à partir d’une image de mot présentée en entrée du système, chaque classifieur fournit en sortie une liste triée des trois meilleurs candidats avec les valeurs de confiance accordées, par le classifieur, à chacune des proposition. Pour chaque candidat, les valeurs de confiance sont normalisées, pour correspondre à des probabilités à posteriori des classes, puis sommées de sorte à établir une liste finale triée par ordre décroissant de valeurs de confiance. Le candidat en tête de liste sera la réponse du combineur.
Les taux de reconnaissance obtenus par la combinaison des classifieurs sont de l’ordre de 94%. Une étape de post-traitement a permis d’améliorer les résultats de près de 2%.

Table des matières

INTRODUCTION GENERALE
CHAPITRE 1 : RECONNAISSANCE OPTIQUE DES CARACTERES
1. INTRODUCTION 
2. LES CRITERES D’INFLUENCES SUR L’OCR 
3. CARACTERISTIQUES DE L’ECRITURE ARABE 
4. APPROCHES DE RECONNAISSANCE
5. PROCESSUS DE RECONNAISSANCE 
5.1. L’ACQUISITION
5.2. LE PRETRAITEMENT
5.2.1. La binarisation
5.2.2. Le lissage
5.2.3. Redressement de l’écriture
5.2.4. La normalisation
5.2.5. Squelettisation (Thinning)
5.3. SEGMENTATION DU MOT
5.4. EXTRACTION DE CARACTERISTIQUES
5.4.1. Transformations et développements en séries
5.4.2. Les caractéristiques structurelles
5.4.3. Allongements horizontaux et verticaux
5.4.4. Intersections avec des droites
5.4.5. Superposition de représentations ou de prototypes
5.4.6. Description en graphes
5.5. APPRENTISSAGE
5.5.1. Apprentissage supervisé
5.5.2. Apprentissage non supervisé
5.6. LA DECISION
5.7. LE POST-TRAITEMENT
6. DIFFICULTES LIEES A L’OCR ARABE
6.1. PRETRAITEMENT
6.2. SEGMENTATION
6.3. EXTRACTION DE CARACTERISTIQUES
7. CONCLUSION
CHAPITRE 2 : APPROCHES DE CLASSIFICATION & APPRENTISSAGE STATISTQIUE
1. LES APPROCHES DE CLASSIFICATION
1.1. APPROCHE STATISTIQUE
1.1.1. Classification bayésienne
1.1.2. Méthode des K plus proches voisins (KPPV)
1.1.3. Discrimination fonctionnelle
1.2. APPROCHE STRUCTURELLE
1.2.1. Méthodes syntaxiques
1.2.2. Les graphes
1.2.3. Les comparaisons de chaînes
1.3. Approche connexionniste
1.4. APPROCHE STOCHASTIQUE
1.5. Les approches hybrides et multi-classifieurs
2. APPRENTISSAGE STATISTIQUE
2.1. APPRENTISSAGE STATISTIQUE SUPERVISE POUR LA RECONNAISSANCE DE FORMES
2.2. MINIMISATION DU RISQUE EMPIRIQUE (ERM)
2.3. La Dimension VC
2.4. La Théorie de Vapnik Chervonenkis
2.5. MINIMISATION DU RISQUE STRUCTUREL (SRM)
3. CONCLUSION
CHAPITRE 3 : LES MACHINES A VECTEURS DE SUPPORT
1. INTRODUCTION 
2. FORMULATION 
3. LE SVM LINEAIRE
3.1. CAS DES DONNEES LINEAIREMENT SEPARABLES
3.1.1. Hyperplan de séparation
3.1.2. Relation avec l’apprentissage statistique
3.1.3. Hyperplan optimal
3.2. CAS DES DONNEES NON SEPARABLE (HYPERPLAN A MARGE MOLLE)
3.3. Les conditions de Karuch-Kuhn-Tucker (KKT)
4. LE SVM NON LINEAIRE
4.1. ESPACE AUGMENTE (FEATURE SPACE)
4.2. EXEMPLES DE KERNELS
4.3. CONDITION DE MERCER
4.3. FRONTIERE DE DECISION NON LINEAIRE
4.4. UNICITE ET GLOBALITE DE LA SOLUTION.
5. ALGORITHMES D’APPRENTISSAGE DU SVM
5.1. METHODE DE CHUNKING
5.2. METHODE DE DECOMPOSITION SUCCESSIVE
5.3. METHODE DE MINIMISATION SEQUENTIELLE : SMO
6. SYSTEMES DE RECONNAISSANCE D’ECRITURE A BASE DE SVM
6.1. SYSTEME DE AYAT, 2004
6.2. SYSTEME DE BELLILI, 2001
6.3 SYSTEME DE BAHLMAN, 2002
7. CONCLUSION
CHAPITRE 4 : UN SYSTEME A BASE DES SVM POUR LA RECONNAISSANCE DES CARACTERES ARABES
1. INTRODUCTION 
2. ARCHITECTURE DU SYSTEME PROPOSE 
2.1. PRETRAITEMENT
2.1.1. Binarisation
2.1.2. Lissage
2.1.3. La normalisation
2.1.4. Extraction du contour
2.2. EXTRACTION DE CARACTERISTIQUES
2.2.1. LES CARACTERISTIQUES STATISTIQUES
2.2.1.1. Les caractéristiques de projections
2.2.1.2. Les caractéristiques de transitions
2.2.1.3. Suivi du contour
2.2.1.4. Les descripteurs de Fourier
2.2.2. Les caractéristiques structurelles
2.2.2.1. Extraction des diacritiques
2.2.2.2. Extraction des boucles
2.3. APPRENTISSAGE
2.4. DECISION
3. SELECTION DU MODELE PAR VALIDATION D’ERREUR
4. BASE DE DONNEES 
5. TESTS, RESULTATS ET DISCUSSIONS
6. CONCLUSION
CONCLUSION GENERALE
BIBLIOGRAPHIE

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *