Le pré-traitement d’images de documents

Facebook Tweet Pin Email

L’analyse automatique de l’écriture manuscrite est un problème recevant de plus en plus d’attention de la communauté de l’analyse de documents. Les deux principales tâches reliées à ce problème sont la reconnaissance et le repérage d’écriture manuscrite. Ces tâches sont souvent résolues en traitant des images de mots segmentés. La reconnaissance consiste alors à identifier le mot correspondant à une image donnée, et le repérage à trouver toutes les occurrences d’un mot requête dans une collection d’images de documents. Le mot requête peut être fourni sous la forme d’une image (problème de requête-par-image) ou un texte (problème de requête-partexte).

Le pré-traitement d’images de documents

Un document numérisé subit plusieurs étapes de pré-traitement pour arriver à un ensemble d’images de lignes et de mots. Ces images sont par la suite utilisées comme entrées pour les modèles de reconnaissance et de repérage d’écriture manuscrite.

La binarisation

Un problème crucial dans l’analyse de documents numérisés est la présence de différents types de dégradations. Généralement, les humains peuvent distinguer entre l’écriture manuscrite et les dégradations, cependant cette distinction demeure problématique pour les méthodes automatiques d’analyse. Au cours des dernières années, plusieurs méthodes de binarisation ont été proposées pour surmonter ce problème. Ces méthodes peuvent être catégorisées en deux catégories : les méthodes globales, qui emploient un seuil unique pour toute l’image, et les méthodes adaptatives (ou locales) qui considèrent un seuil différent pour chaque pixel de l’image.

La méthode d’Otsu est une méthode de binarisation avec un seuil global. Cette méthode suppose la présence de deux distributions dans une image d’un document, une pour l’avant-plan et l’autre pour l’arrière-plan. Le seuil global est calculé d’une manière à minimiser la variance intra-classe entre ces deux distributions. Cette méthode fonctionne bien avec les images éclairées, mais elle est moins intéressante pour les images dégradées où il y a une grande variance entre les pixels de l’avant plan. La méthode de Niblack est une méthode avec seuil adaptatif qui permet de surpasser cette limitation. Dans cette méthode, le seuil pour un pixel p est calculé en utilisant une fenêtre centrée en p comme SNiblack(p) = m(p) + kσ(p), où m(p) et σ(p) sont la moyenne locale et l’écart-type dans la fenêtre centrée. Cependant, cette méthode peut considérer des pixels comme avant-plan si le seuil est trop petit, ce qui limite sa performance dans certains cas.

La méthode de Sauvola est une approche populaire de binarisation qui évite les limitations de Niblack en supposant que l’avant-plan et l’arrière-plan ont des intensités proches de 0 et 255. La méthode d’Howe (Howe, 2013) offre également une bonne performance en traitant la binarisation comme un problème d’optimisation d’une fonction d’énergie globale qui dépend de six paramètres dont deux sont définis de manière automatique.

La segmentation en zones, lignes et mots

Une image binarisée de document doit généralement être segmentée en un ensemble de régions classifiées en zones de texte et zones de non-texte. Les zones de texte sont par la suite segmentées en un ensemble de lignes. Cette étape est délicate (Gatos & Pratikakis, 2009) puisque les lignes ne sont pas toujours horizontales et les descendants/ascendants de différentes lignes peuvent se chevaucher. Une étude comparative des différentes méthodes pour la segmentation de lignes est faite dans (Likforman-Sulem et al., 2007; Louloudis et al., 2009).

Une fois extraites, les lignes doivent ensuite être segmentées en un ensemble des mots afin de pouvoir être traitées directement. La segmentation en mots passe se base généralement sur l’analyse de composants connectés ou des profils de projection verticale (Gatos & Pratikakis, 2009; Louloudis et al., 2009) pour trouver les séparations entre les mots.

Discussion

La correction de la pente d’écriture et de l’angle d’inclinaison de caractères sont deux tâches fréquemment employées pour normaliser l’écriture manuscrite. La binarisation peut également être considérée comme une opération de normalisation. Ces trois étapes de sont appliquées afin de réduire la variabilité de l’écriture manuscrite. Cependant, elles ne fonctionnent pas toujours parfaitement et leur utilisation peut causer la perte d’informations importantes. Dans cette thèse, nous proposons de modèles qui n’appliquent aucune étape de normalisation. Le but est d’exploiter plus efficacement l’apprentissage automatique de manière à éviter ces pertes.

Les modèles de reconnaissances de mots manuscrits

La reconnaissance de mots manuscrits est le processus qui consiste à identifier le mot écrit correspondant à une image donnée. Dans la littérature, cette tâche est largement abordée par les chercheurs. Les premiers travaux étaient limités à la reconnaissance d’images de caractères et de chiffres (Lecun et al., 1998). Par la suite, les modèles de reconnaissance se sont améliorés et la recherche s’est concentrée sur aux problèmes plus complexe de reconnaître des mots entiers ou des lignes. Les approches pour ces problèmes sont généralement basées sur des modèles de données séquentielles tels que les modèles de Markov cachés et les modèles récurrents.

Table des matières

INTRDUCTION
0.1 Motivation
0.2 Problématique
0.2.1 La variabilité de formes manuscrites
0.2.2 La complexité du processus de reconnaissance et de repérage
0.3 Objectif principal de la thèse
0.4 Contributions de la thèse
0.5 Plan de la thèse
CHAPITRE 1 REVUE DE LA LITTÉRATURE
1.1 Introduction
1.2 Le pré-traitement d’images de documents
1.2.1 La binarisation
1.2.2 La segmentation en zones, lignes et mots
1.2.3 Discussion
1.3 Les modèles de reconnaissances de mots manuscrits
1.3.1 Les modèles de Markov cachés
1.3.2 Les modèles convolutifs
1.3.3 Les modèles récurrents
1.3.4 Discussion
1.4 Les modèles de repérage de mots manuscrits
1.4.1 Les différentes catégories de modèles de repérage
1.4.2 Les modèles de repérage avec requête-par-image
1.4.3 Les modèles de repérage avec requête-par-texte
1.4.4 Discussion
CHAPITRE 2 HIERARCHICAL REPRESENTATION LEARNING USING SPHERICAL K-MEANS FOR SEGMENTATION-FREE WORD SPOTTING
2.1 Introduction
2.2 Related work
2.2.1 Segmentation-free and training-free word spotting methods
2.2.2 Hierarchical representation learning using spherical k-means
2.3 Methodology
2.3.1 Unsupervised hierarchical features using spherical k-means
2.3.1.1 Feature representation learning
2.3.1.2 Feature encoding
2.3.2 Compression and re-ranking using a codebook of local features
2.3.2.1 Compression of document image representations
2.3.2.2 Re-ranking using a sequence of VLAD representations
2.4 Experiments
2.4.1 Experimental setup
2.4.2 Effect of handwriting representation parameters
2.4.3 Effect of compression
2.4.4 Effect of re-ranking
2.4.5 Comparison to the state-of-the-art
2.5 Conclusions and future works
CHAPITRE 3 CONVOLUTIONAL PYRAMID OF BIDIRECTIONAL CHARACTER SEQUENCES FOR THE RECOGNITION OF HANDWRITTEN WORDS
3.1 Introduction
3.2 The proposed method
3.2.1 Non-fixed size of input images
3.2.2 Pyramid of bidirectional character sequences (PBCS)
3.2.3 Output layer normalization
3.2.4 Mapping CNN outputs to lexicon words
3.3 Experiments
3.3.1 Databases
3.3.2 Network architecture
3.3.3 Implementation details
3.3.4 Results
3.3.4.1 Impact of representation parameters
3.3.4.2 Impact of word length
3.3.4.3 Comparison with the state-of-the-art
3.4 Conclusions
CHAPITRE 4 WORD SPOTTING AND RECOGNITION VIA A JOINT DEEP EMBEDDING OF IMAGE AND TEXT
4.1 Introduction
4.2 Related work
4.3 Methodology
4.3.1 Problem formulation
4.3.2 Word image embedding
4.3.3 Word text embedding
4.3.4 Multi-layer perceptron matching model
4.4 Experiments
4.4.1 Databases
4.4.2 Evaluation protocol
4.4.3 Implementation details
4.4.4 Results
4.4.4.1 Query-by-example word spotting
4.4.4.2 Query-by-string word spotting
4.4.4.3 Word recognition
4.4.4.4 Computational efficiency
4.5 Conclusions
CHAPITRE 5 CONCLUSION GÉNÉRALE