Mémoire Online: Segmentation de textes en caractères pour la reconnaissance optique de l’écriture arabe

Sommaire: Segmentation de textes en caractères pour la reconnaissance optique de l’écriture arabe

Abréviations
Introduction
Plan de lecture du mémoire
Chapitre I: LA RECONNAISSANCE DE L’ECRITURE
I-1- Introduction
I-2- Différents aspects de l’OCR
I-2-1- Reconnaissance En-ligne et Hors-ligne
I-2-2- Reconnaissance globale ou Analytique
I-3- Problèmes liés à l’OCR
I-4- Organisation générale d’un système de reconnaissance
I-4-1- Phase d’acquisition
I-4-2- Phase de prétraitements
I-4-3- Phase de segmentation
I-4-4- Phase d’analyse ou d’extraction des caractéristiques
I-4-5- Phase de classification
I-4-6- Phase de post-traitement
I-5 Conclusion
Chapitre II L’OCR ET L’ARABE
II-1- Introduction
II-2- Calligraphie et typographie arabe
II-2-1- Caractéristiques de l’écriture arabe
II-2-2- Alphabet arabe : données graphiques
II-2-3- Conséquences techniques des caractéristiques morphologiques de l’arabe
II-2-4- Notions de typographie arabe
II-2-4-1- Définition de la notion de fonte
II-2-4-2- Styles de calligraphies arabes
II-3- Avancées en OCR arabe
II-3-1- Prétraitements
II-3-2- La segmentation
II-3-3- Extraction des primitives, classification
II-3-4- Post-traitement
II-4- Conclusion
Chapitre III ETAT DE L’ART DE LA SEGMENTATION
III-1- Introduction
III-2- Segmentation de la page
III-3- Segmentation d’un bloc de texte en lignes
III-4- Segmentation des lignes en mots
III-5- Segmentation des mots en caractères
III-5-1- Organisation des méthodes
III-5-2- Techniques de dissection pour segmentation
III-5-3- Segmentation basée reconnaissance
III-5-4- Stratégies mixtes (sur-segmentation)
III-5-5- Stratégies holistiques
III-6- Conclusion
Chapitre IV SEGMENTATION DES MOTS ARABES EN CARACTERES
IV-1 Introduction
IV-2- Etat de l’art de la segmentation des mots arabes en caractères
IV-2-1- Introduction
IV-2-2- Décomposition de la page
IV-2-3- Segmentation des mots
IV-2-3-1- Première Approche
IV-2-3-2- deuxième approche
IV-2-3-3- Troisième approche
IV-2-3-4- Quatrième approche
IV-2-3-5- Cinquième Approche
IV-2-4- Enumération de certains travaux de segmentation de mots
arabes en caractères
IV-3- Etude de l’existant
IV-4- Choix de l’approche et des algorithmes
IV-5- Etude détaillée de quelques algorithmes segmentant les mots
arabes imprimés en caractères
IV-5-1- algorithme proposé dans [Benamara 95]
IV-5-2- algorithme proposé dans [Gillies 97]
IV-5-3- algorithme proposé dans [El-Gammel 2001]
IV-5-4- algorithme proposé dans [Azmi 2001]
IV-6- Choix d’une méthode pour l’implémentation
IV-7- Conclusion
Chapitre V CONTRIBUTION A LA SEGMENTATION DES MOTS ARABES IMPRIMES EN CARACTERES
V-1 Introduction
V-2- Aquisition et pré-traitement
V-2-1- Pré-traitements
V-2-2- segmentation du texte en lignes
V-2-3- Calcul de l’épaisseur du trait
V-2-4- Détection de la ligne de base
V-3- L’Algorithme de segmentation
V-3-1- Phase de segmentation des lignes en mots
V-3-2- Phase de segmentation des pseudo-mots en caractères
V-3-3- Phase de post-traitement
V-4- Structure du programmes
V-5- Organigrammes de l’algorithme
V-6- Résultats expérimentaux
V-7- Conclusion
Conclusion et perspectives
Annexe
Références Bibliographiques

Extrait du mémoire segmentation de textes en caractères pour la reconnaissance optique de l’écriture arabe

CHAPITRE I: LA RECONNAISSANCE DE L’ECRITURE.
I-1- INTRODUCTION
Toute information écrite peut être reprise dans une chaîne de traitement informatisée à différentes fins : la rédaction et l’édition de rapports, la diffusion de documents dans un système de messagerie … conduisent à exploiter des informations disponibles seulement sur papier. La reconnaissance optique de caractères (OCR) est une opération informatique rapide permettant de réaliser la transformation d’un texte écrit sur papier en un texte sous forme d’un fichier informatique en représentation symbolique (par exemple pour les écritures latines, le codage opéré est le code ASCII
(American Standard code for information interchange), tandis que pour l’arabe on utilise généralement le code ASMO (Arabic Standard Metrology Organization).
I-2- DIFFERENTS ASPECTS DE L’OCR
Il n’existe pas de système universel d’OCR qui permet de reconnaître n’importe quel caractère dans n’importe quelle fonte. Tout dépend du type de données traitées et bien évidemment de l’application visée [Benamara 99]. Il existe plusieurs modes de classification des systèmes OCR parmi lesquels on peut citer :
• Les systèmes qualifiés de « en-ligne » ou « hors-ligne » suivant le mode d’acquisition.
• Les approches globales ou analytiques selon que l’analyse s’opère sur la totalité du mot, ou par segmentation en caractères.
• Les approches statistiques, structurelles ou stochastiques relatives aux traits caractéristiques extraits des formes considérées.
……….

Si le lien ne fonctionne pas correctement, veuillez nous contacter (mentionner le lien dans votre message)
Mémoire Online: Segmentation de textes en caractères pour la reconnaissance optique de l’écriture arabe (1.5 MO) (Cours PDF)