L’analyse automatique de l’écriture manuscrite est un problème recevant de plus en plus d’attention de la communauté de l’analyse de documents. Les deux principales tâches reliées à ce problème sont la reconnaissance et le repérage d’écriture manuscrite. Ces tâches sont souvent résolues en traitant des images de mots segmentés. La reconnaissance consiste alors à identifier le mot correspondant à une image donnée, et le repérage à trouver toutes les occurrences d’un mot requête dans une collection d’images de documents. Le mot requête peut être fourni sous la forme d’une image (problème de requête-par-image) ou un texte (problème de requête-partexte).
Le pré-traitement d’images de documents
Un document numérisé subit plusieurs étapes de pré-traitement pour arriver à un ensemble d’images de lignes et de mots. Ces images sont par la suite utilisées comme entrées pour les modèles de reconnaissance et de repérage d’écriture manuscrite.
La binarisation
Un problème crucial dans l’analyse de documents numérisés est la présence de différents types de dégradations. Généralement, les humains peuvent distinguer entre l’écriture manuscrite et les dégradations, cependant cette distinction demeure problématique pour les méthodes automatiques d’analyse. Au cours des dernières années, plusieurs méthodes de binarisation ont été proposées pour surmonter ce problème. Ces méthodes peuvent être catégorisées en deux catégories : les méthodes globales, qui emploient un seuil unique pour toute l’image, et les méthodes adaptatives (ou locales) qui considèrent un seuil différent pour chaque pixel de l’image.
La méthode d’Otsu est une méthode de binarisation avec un seuil global. Cette méthode suppose la présence de deux distributions dans une image d’un document, une pour l’avant-plan et l’autre pour l’arrière-plan. Le seuil global est calculé d’une manière à minimiser la variance intra-classe entre ces deux distributions. Cette méthode fonctionne bien avec les images éclairées, mais elle est moins intéressante pour les images dégradées où il y a une grande variance entre les pixels de l’avant plan. La méthode de Niblack est une méthode avec seuil adaptatif qui permet de surpasser cette limitation. Dans cette méthode, le seuil pour un pixel p est calculé en utilisant une fenêtre centrée en p comme SNiblack(p) = m(p) + kσ(p), où m(p) et σ(p) sont la moyenne locale et l’écart-type dans la fenêtre centrée. Cependant, cette méthode peut considérer des pixels comme avant-plan si le seuil est trop petit, ce qui limite sa performance dans certains cas.
La méthode de Sauvola est une approche populaire de binarisation qui évite les limitations de Niblack en supposant que l’avant-plan et l’arrière-plan ont des intensités proches de 0 et 255. La méthode d’Howe (Howe, 2013) offre également une bonne performance en traitant la binarisation comme un problème d’optimisation d’une fonction d’énergie globale qui dépend de six paramètres dont deux sont définis de manière automatique.
La segmentation en zones, lignes et mots
Une image binarisée de document doit généralement être segmentée en un ensemble de régions classifiées en zones de texte et zones de non-texte. Les zones de texte sont par la suite segmentées en un ensemble de lignes. Cette étape est délicate (Gatos & Pratikakis, 2009) puisque les lignes ne sont pas toujours horizontales et les descendants/ascendants de différentes lignes peuvent se chevaucher. Une étude comparative des différentes méthodes pour la segmentation de lignes est faite dans (Likforman-Sulem et al., 2007; Louloudis et al., 2009).
Une fois extraites, les lignes doivent ensuite être segmentées en un ensemble des mots afin de pouvoir être traitées directement. La segmentation en mots passe se base généralement sur l’analyse de composants connectés ou des profils de projection verticale (Gatos & Pratikakis, 2009; Louloudis et al., 2009) pour trouver les séparations entre les mots.
Discussion
La correction de la pente d’écriture et de l’angle d’inclinaison de caractères sont deux tâches fréquemment employées pour normaliser l’écriture manuscrite. La binarisation peut également être considérée comme une opération de normalisation. Ces trois étapes de sont appliquées afin de réduire la variabilité de l’écriture manuscrite. Cependant, elles ne fonctionnent pas toujours parfaitement et leur utilisation peut causer la perte d’informations importantes. Dans cette thèse, nous proposons de modèles qui n’appliquent aucune étape de normalisation. Le but est d’exploiter plus efficacement l’apprentissage automatique de manière à éviter ces pertes.
Les modèles de reconnaissances de mots manuscrits
La reconnaissance de mots manuscrits est le processus qui consiste à identifier le mot écrit correspondant à une image donnée. Dans la littérature, cette tâche est largement abordée par les chercheurs. Les premiers travaux étaient limités à la reconnaissance d’images de caractères et de chiffres (Lecun et al., 1998). Par la suite, les modèles de reconnaissance se sont améliorés et la recherche s’est concentrée sur aux problèmes plus complexe de reconnaître des mots entiers ou des lignes. Les approches pour ces problèmes sont généralement basées sur des modèles de données séquentielles tels que les modèles de Markov cachés et les modèles récurrents.
INTRDUCTION |