Identification des scripts dans les manuscrits anciens
Résumé : La reconnaissance de scripts est la distinction d’une langue écrite par rap- port à une autre dans un manuscrit ancien. Les manuscrits anciens sont des documents complexes de par la diversité de leurs contenus, par exemple la présence de lettrines, arte- facts et différentes images. Mais aussi, par le niveau de détérioration qu’ils ont subit qu’elle soit au travers d’interventions humaines ou naturelles. Cette complexité rend la tâche de l’identification des scripts difficile, car l’algorithme doit avoir une bonne capacité de gé- néralisation. Par exemple, l’algorithme doit être capable de reconnaître le script d’un ou plusieurs fragments provenant du même manuscrits, mais éparpillés dans plusieurs sources de données. Notre approche consiste à aborder le problème de l’identification des scripts par la détermination des caractéristiques en prenant le signal de l’image du document dans sa globalité, prenant donc en compte l’environnement où se trouve le script. Nous faisons l’hy- pothèse qu’un apprentissage effectif des caractéristiques utiles à la classification est possible dans un premier temps. Et, dans un second temps, l’extraction de caractéristiques fines est abordable par un empilement de réseaux de neurones de types auto-encodeurs (CAE pour Convolutional Auto-Encoders) afin de fournir une représentation alternative des données reçues en entrée. Ces représentations fines mélangent les propriétés du script aux propriétés de la page où ils se trouvent. Les représentations sont des plus générales dans les premières couches, par exemple le changement de contraste dans l’image, vers les plus particulières, par exemple le tracé d’un scribe (écrivain) par rapport à un autre. Les résultats obtenus avec les représentations CAE sont comparables à ceux fabriqués par des experts. Nous avons rapporté les résultats obtenus avec les caractéristiques apprises, et ce en les com- parants aux caractéristiques extraites à l’aide d’une expertise humaine. Nous avons enfin relevé l’importance de l’initialisation des paramètres lors de l’apprentissage.
Position du problème
L’évolution technologique de l’acquisition d’images, par scanner ou appareil photo de type réflexe, a permis de réduire les coûts liés à la numérisation de nom- breux documents anciens, dans les bibliothèques, archives municipales, musées, etc. Ceci a résulté en une rapide expansion du nombre de travaux sur l’analyse d’images de documents ou DIA, Document Image Analysis. Le DIA est un domaine qui se trouve au croisement de l’analyse d’images, la reconnaissance de formes et lesLes manuscrits anciens sont des documents complexes. D’abord, leur mise en forme est complexe avec une variété d’artefacts comme des lettrines, des dessins, et des contenus textuels de différentes formes (e.g. figure 7.2 a et c). Ensuite, leur qualité est souvent détériorée par le temps, ou par des interventions humaines (e.g taches, coupures) comme cela est illustré par exemple dans les figures 7.2 (b) et 7.2 (d)). Puis, vu qu’il n’existe pas encore de normes communes à l’ensemble desEn pratique, les scripts sont qualifiés à l’aide d’un ensemble de caractéristiques (e.g. largeur du trait, contraste, forme des lettres). Ces caractéristiques sont acces- sibles au travers du traitement de l’image représentée par une matrice de pixels. Le traitement aux termes des pixels s’effectue par l’application d’un filtre sur un ou plusieurs niveaux qui correspondent à différentes régions d’intérêts (ROI pour Region Of Interest en anglais). Ces ROI peuvent représenter une ligne, un mot, ou encore un caractère. Dans ce cas, les documents illustrés dans la figure 7.2 sont le plus souvent considérés comme du bruit et sont supprimés lors de l’extraction des caractéristiques, et aussi de la discrimination des scripts.
Spécification de notre jeu de données
traites au niveau des ROI cités perdent en information et ne sont pas directement applicables à d’autres manuscrits anciens. Dans cette partie, nous proposons de tra- vailler au niveau de la page sans aucun nettoyage ni pré traitement préalable sur les pixels du manuscrit.. Les manus- crits écrits en éthiopien sont issus des collections de Mondon-Vidailhet, Griaule et Marcel Cohen. Ceux en Syrique sont issus des collections de l’Ancien Testament dans la version peshitta. Ceux en Grec sont issus de la collection ayant appartenu au chancelier Séguier. Ceux en latin sont issus de Gregorius Magnus, Homiliae in Ezechielem et d’un lectionnaire romain composé vers 670-680.Nous avons considéré deux principales méthodes pour l’extraction de caractéris- tiques. Nous nous référons à la première méthode comme une extraction faite main des caractéristiques, en anglais handcrafted features method. Nous nous référons à la deuxième méthode comme une extraction des caractéristiques apprises, en anglais learned features method.