Recherche d’information dans les images de documents

Les bibliothèques et les centres de documentation disposent de millions de livres et de journaux sous la forme papier qui ne peuvent être saisis manuellement et qui sont difficilement indexés. La solution consiste à numériser ces documents en mode image puis à extraire de l’information à partir de ces images de façon à retrouver un document à travers son contenu. Le contexte d’application de notre étude est la recherche d’information dans les images de documents.

Dans ce contexte d’application, une requête exprime le besoin en informations d’un utilisateur et on appelle document toute unité qui peut constituer une réponse à une requête d’utilisateur. Un système de recherche d’information (RI) doit permettre de retrouver les documents pertinents à une requête d’utilisateur, à partir d’une base volumineuse de documents plein texte. C’est sur cette notion de pertinence que le système doit juger si un document doit être donné à l’utilisateur comme réponse.

Par ailleurs, une image de document peut contenir du texte, mais aussi des illustrations, des graphes et des logos. La communauté scientifique traitant de l’imagerie est très active dans le domaine de la recherche d’images basée sur le contenu (CBIR). Toutefois, notre problématique de recherche se rapporte à des images de documents alors que le CBIR se rapporte habituellement à l’extraction d’information des images non-documents. Par ailleurs, l’image de document est bien plus qu’une image à deux dimensions, elle comporte des chaînes de caractères de différentes tailles ainsi que de nombreuses illustrations, logos et graphes qui composent sans contraintes et d’une manière aléatoire le contenu du document . L’existence d’objets non textuels nécessite de nouvelles méthodes d’indexation et de recherche à intégrer au processus global de recherche d’information sur les images de documents.

Les zones textuelles de l’image peuvent être reconnues par un OCR (Optical Character Recognition) qui n’est pas exempt d’erreurs. Plusieurs travaux ont montré que la recherche d’information sur du texte obtenu par OCR dépend de la qualité de l’image et de la taille du document. Les travaux menés ces dernières années focalisent sur la correction des erre urs à l’aide de dictionnaires. Le problème est que ces derniers ne peuvent contenir tous les types d’erreurs. La motivation principale pour cette partie de la thèse est de concevoir une approche utilisant les parties des mots fréquemment erronées (erreur-grams) pour augmenter les termes de la requête et améliorer la recherche dans une collection d’images de documents de différentes qualités.

Les OCR n’ont pour seule fonction que la reconnaissance des caractères et perdent toutes les informations relatives au contenu non textuel du document. Aussi, les méthodes traditionnelles de RI sont surtout destinées aux textes, et ne sont pas directement applicables à d’autres types de données. Les objets non-textes posent problème surtout que les approches classiques dans le domaine de l’imagerie et de la reconnaissance de formes utilisent de l’information a priori pour localiser et identifier la nature du contenu. Ces méthodes ne peuvent s’adapter aux images de documents dont l’information est de nature composite et structurée à l’intérieur de cadres ou en un nombre variable de formes dont la hauteur et la largeur ne sont pas constantes.

Repérage fiable des zones informationnelles

La performance de l’interprétation de l’image du document dépend de la segmentation et de l’étiquettage de différentes régions informationnelles (textes, graphes, logos et illustrations). Dans la littérature, un survol du domaine de l’indexation et de la recherche d’images de documents est présenté dans (Doermann, 1998). On distingue trois approches de segmentation qui sont: méthodes descendantes (Wang et Srihari, 1989b; Tang et al., 1997; Ingold et Armangil, 1991), méthodes ascendantes (Tang et al., 1997; Jain et Yu, 1998) et mixte (Seong-Whan et R., 2001; Cheriet, 1999; Kyong-Ho et al., 2000; Kerpedjiev, 1997). On trouve des applications de ces méthodes à des sommaires ou des articles scientifiques (Kyong-Ho et al., 2000) et aux journaux (Wang et Srihari, 1989b; Jain et Yu, 1998; Ingold et al., 2000).

L’approche descendante divise l’image en régions majeures subdivisées par la suite en sous régions. Les objets obtenus sont repérés par leurs positions, leurs tailles et leurs masses. Dans la littérature, il existe de nombreux exemples de méthodes de segmentation descendantes. La plus courante consiste à projeter récursivement l’image sur les axes des x et des y, puis analyser les histogrammes pour couper verticalement et horizontalement les différents blocs de l’image suivant des seuils évolutifs (Krishnamoorthy et al., 1993). Tang et al. (Tang et al., 1997) ont défini un langage de définition des formes et des règles décrivant les formes à reconnaître sur l’image.

L’approche ascendante extrait les composantes géométriques de base pour constituer des regroupements de plus en plus larges. Les techniques utilisées sont basées sur les méthodes d’analyse de la connexion avec les voisins pour détecter les groupes de pixels homogènes (J ain et Yu, 1998). On utilise des opérateurs comme le seuillage, la morphologie mathématique, la projection ou les opérateurs différentiels. Dans une première étape, les pixels de l’image de départ ou d’une image transformée sont regroupés en composantes connexes. Une deuxième étape consiste à extraire des caractéristiques sur ces composantes afin de pouvoir les regrouper en zones homogènes. Ces algorithmes localisent et fusionnent les composantes connexes à l’ aide de seuils et de règles décrivant les formes à reconnaître. Le résultat de cette segmentation est une arborescence présentant la hiérarchie des différents blocs du document.

Quelque soit la méthode utilisée, quatre limites viendront toujours restreindre les performances:

– les problèmes d’atténuation du bruit : la question importante est de déterminer quel seuil utiliser pour lisser le bruit
– les problèmes de formes : toutes ces méthodes nécessitent la connaissance d’informations a priori sur les caractéristiques et les formes des objets. Comment définir la forme d’une zone donnée surtout que les propriétés visuelles et géométriques ainsi que la dimension varient en fonction de l’échelle et du lissage du bruit?
– les problèmes de suivi des seuils multiples à mettre en place
– le choix des attributs pertinents : comment peut-on regrouper les attributs et les objets pour remédier au problème de discrimination entre les différents types de graphiques ?

Méthodes de RI reliées à la reconnaissance par OCR 

La recherche d’information a pour objet de répondre aux besoins des utilisateurs dans un corpus textuel donné. L’OCR transforme les images de documents en texte à l’aide de dictionnaires de correction. Dans tous les cas d’indexation automatique par OCR, il n’est guère raisonnable de s’attendre à un taux de reconnaissance supérieur à 80% (la réalité est même plus proche de 60% pour des qualités d’images moyennes). La recherche d’images de documents est difficile à cause des erreurs de reconnaissance découlant des opérations d’édition telles que la substitution, la suppression et l’insertion de caractères (Harding et al., 1997; Makinen et al., 2003; Ohta et al., 1998; Taghva et Stofsky, 2001). Beaucoup de ces études ont montré que ces trois types d’opérations -substitution, suppression et insertion de caractères- composent 80 à 90% d’erreurs.

Les systèmes proposés dans la littérature s’accordent tous pour analyser et remédier aux erreurs de reconnaissance dûes à l’OCR. Smeaton (Smeaton, 1998) emploie la forme approximative des mots dans un texte pour raffiner le processus de recherche; mais cette approche ne peut désambiguïser les erreurs de reconnaissance. La plupart des approches à la correction des erreurs de reconnaissance se servent de dictionnaires. Les erreurs sont détectées en recherchant les mots du texte reconnus qui n’apparaissent pas dans le dictionnaire (Makinen et al., 1999; Strohmaier et al., 2003). Ce dernier ne peut couvrir tous les types d’erreurs. Durant les années 90, l’Institut de Recherche en Sciences de l’information (ISRI) de l’université du Nevada à Las Vegas a entrepris beaucoup d’expériences pour étudier la précision des OCRs et l’efficacité de la recherche à partir de textes générés par OCR (Taghva et al., 1996a; Taghva et Stofsky, 2001). Leurs recherches montrent les effets des erreurs de reconnaissance sur le classement des documents et que le retour de pertinence, processus automatique qui emploie le jugement de la pertinence de l’utilisateur pour reformuler automatiquement la requête, ne peut compenser les erreurs de reconnaissance de documents. Taghva et Stofsky (Taghva et Stofsky, 2001) ont développé un système OCRSpell, qui utilise un analyseur syntaxique, des dictionnaires spécifiques et un outil statistique de génération de mots pour remplacer les termes incorrects. OCRSpell a été utilisé dans (Taghva et al., 2002) pour traiter certaines erreurs et améliorer le rang des documents pertinents retournés lors de la recherche d’images de documents dégradées.

Table des matières

CHAPITRE 1 INTRODUCTION
1.1 Présentation et contexte
1.2 Problématiques
1.3 Objectifs généraux et contributions
1.4 Plan de la thèse
CHAPITRE 2 ÉTAT DE L’ART
2.1 Repérage fiable des zones informationnelles
2.2 Méthodes de RI reliées à la reconnaissance par OCR
2.3 Caractéristiques des régions non textuelles
2.4 Classification reliée aux régions non textuelles
2.5 Approche hybride pour la RI intégrant les régions non textuelles
2.6 Conclusion
CHAPITRE 3 REPÉRAGE DES ZONES INFORMATIONNELLES
3.1 Introduction
3.2 Méthodes de segmentation
3.2.1 Opérateurs morphologiques
3.2.2 Techniques de projection
3.2.3 Techniques de transformée de Hough
3.2.4 Techniques de suivi basé contour ou texture
3.2.5 Opérateurs Laplacien
3.2.6 Technique de filtre de lissage
3.2.7 Méthodes ascendantes de segmentation
3.3 Recherche dans les images de documents
3.3.1 Caractéristiques de points d’intérêt
3.3.2 Caractéristiques des régions
3.3.3 Recherche de formes
3.4 Notre approche
3.4.1 Représentation en espaces d’échelles « scale-space »
3.4.2 Repérage des régions homogènes
3.4.3 Modélisation du système
3.5 Interprétation des régions détectées
3.6 Conclusion
CHAPITRE 4 RECHERCHE D’INFORMATION RELIÉE À LA RECONNAISSANCE PAR OCR
4.1 Introduction
4.2 Reconnaissance optique du texte de l’image de document
4.2.1 Reconnaissance de mots
4.2.2 Reconnaissance d’images de documents
4.2.3 Besoins actuels en analyse de documents
4.3 Architecture de l’approche proposée
4.4 Appariements et erreurs de l’OCR
4.4.1 Algorithme de distance d’édition
4.4.2 Erreur-grams et les règles de correction
4.5 Processus de recherche
4.5.1 Expansion de la requête
4.5.2 Processus d’indexation
4.5.3 Calcul de la similarité
4.5.4 Mesures de la performance
4.6 Conclusion
CHAPITRE 5 REPÉRAGE DES ZONES NON TEXTUELLES
5.1 Introduction
5.2 Passage de l’opérateur LoG à l’opérateur SKCS
5.2.1 Formulation du KCS
5.2.2 Formulation du SKCS
5.3 Architecture de l’approche proposée
5.4 Fusion des objets
5.5 Définition de la classification
5.5.1 Classification supervisée
5.5.2 Classification non-supervisée
Définition de la distance
Critère d’agrégation
Stratégie de classification proposée
Classification automatique par l’algorithme k-moyennes
Optimisation des classes par MKL
Transformation Karhunen-Loeve
Multi-espace KL « MKL » (Cappelli et al., 2001)
Évaluation de la qualité de la classification automatique
Conclusion
CHAPITRE 6 CONCLUSION GÉNÉRALE

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *