Méthodes d’annotation sémantique d’images
Méthodes manuelles
La plupart des systèmes de base de données d’images utilisent aujourd’hui l’annotation manuelle [Gong Y. et al., 1994]. Il s’agit d’une méthode d’annotation qui permette aux utilisateurs d’associer des mots-clés descriptifs aux images conservée au sein d’un base de données. Deux types d’annotation différentes existent : celle basée sur les mots-clés et celle basée sur les ontologies. Dans le premier cas les utilisateurs sont libres d’étiqueter les ressources considérées avec n’importe quel mot-clé qu’ils retiennent, adéquat à la description du contenu de l’image ; dans le deuxième cas les Méthodes d’annotation sémantique d’images La maquette numérique comme support pour la recherche visuelle d’informations patrimoniales 36 mots à utiliser pour la description du contenu des images sont reliés à une structure de concept représentant un domaine de connaissances précis. Dans le cas de l’annotation libre par mots-clés les utilisateurs ne sont pas forcés de suivre un arrangement formalisé. Puisque aucune conceptualisation partagée n’est prise en considération, l’association de l’étiquette à une interprétation sémantique précise peut seulement être accidentellement réalisée. Les exemples bien connus de ce genre d’annotation pour les images 2D sont [Flickr] et [Riya]. Ces systèmes se basent sur des interfaces permettant aux utilisateurs de tracer un rectangle autour d’un objet dans une photographie puis d’introduire quelques termes descriptifs. Différents travaux de recherche ont exploré des techniques pour améliorer le processus d’annotation sémantique manuelle. [Shneiderman B. et al., 2000] ont développé une méthode d’étiquetage des noms des personnes dans un ensemble de photos dans le cadre du projet «PhotoFinder » (voir figure 19). Par cette méthode, l’utilisateur peut simplement choisir manuellement un mot clé à partir d’une liste de noms et se servir d’une manipulation de type « Glisser – déposer » (drag & drop) sur les images afin d’en indiquer la personne correspondante. Bien qu’elle évite une grosse partie de travail de dactylographie, cette méthode reste toujours manuelle et requiert beaucoup de manipulations. Figure 19 L’interface de PhotoFinder Une technique permettant d’accélérer cette tache lourde est l’annotation par lots : un group d’images sont sélectionnées, puis le même mot-clé est appliqué à chaque photo avec une seule action [Kang H. et al., 2000; Kuchinsky A. et al., 2002]. Du coté de l’annotation basée sur l’ontologie, les étiquettes sont définies par des spécifications formelles et explicites d’une conceptualisation partagée d’un domaine de connaissances [Gruber T.R. 1993], [Guarino N., 1998]. Puisque la conceptualisation est partagée, il n’y a aucune liberté dans le choix des noms d’étiquettes, mais cette contrainte est par contre récompensée par un arrangement commun des étiquettes. D’ailleurs, la conceptualisation partagée peut Définition d’une approche pour la sémantisation de sources iconographiques par référencement spatial 37 également être traitée par des applications informatiques, fournissant des possibilités particulièrement probantes en terme de recherche de contenu [Saathoff C., 2006]. Photostuff [Halaschek-Wiener C. et al., 2005] donne aux utilisateurs la possibilité d’annoter des régions d’images en utilisant une ontologie ainsi que d’éditer les métadonnées de l’image dans le Web. Dans M-OntoMat-Annotizer [Petridis K. et al., 2006], l’utilisateur peut dessiner et accentuer des segments (i.e. régions) d’une image, visualiser (browse) des ontologies spécifiques à différents domaines, puis annoter les régions identifiées (voir figure 20). Figure 20 L’interface de M-OntoMat-Annotizer Dans le domaine de l’architecture archéologique [Blaise J.Y. et al., 2007] et [Azzi Y., 2008] proposent un système qui permet à l’utilisateur d’identifier des régions des images en traçant la silhouette des objets à décrire puis en associant à chaque région crée un termes du vocabulaire architectural faisant partie d’une base de données ontologique (voir figure 21). Figure 21 Annotation sémantique d’images d’architecture patrimoniale [Azzi Y., 2008; Blaise J.Y. et al., 2007] [Cross J. et al.,] proposent un dispositif de collecte et d’annotation d’images pour les applications de terrain dans les chantiers de fouilles archéologiques. Les images sont recueillies par webcam et géo-rectifiées. L’utilisateur peut annoter les images en utilisant un système de couches d’annotations. Plusieurs objets peuvent La maquette numérique comme support pour la recherche visuelle d’informations patrimoniales 38 être attachés à une annotation, et les annotations peut être présentées individuellement (en une seule couche), ou comme un composite. Analyse : Bien que l’annotation manuelle du contenu d’image soit considérée un meilleur cas en termes d’exactitude du contenu sémantique des images, puisque des mots-clés choisis sont basé sur la détermination humaine, c’est un processus qui a besoin de beaucoup de travail. En outre, l’annotation manuelle peut également présenter des erreurs de récupération à cause de oubli d’utilisateurs ou descripteurs après une longue période de travail. Les critères pour saisir un mot-clé au travers de cette méthode sont complètement subjectifs. Les termes ne sont pas référencés par le même standard. Même si certains systèmes sont basés sur des mots-clés structurés dans une ontologie, le nombre et l’association des termes est toujours dépendante d’une décision personnelle. Une personne peut entrer un seul mot-clé par image, alors que une autre personne pourrait en utiliser plusieurs. Certaines annotations jugées inutiles pour certains pourraient être importantes pour d’autres. En outre, dans les solutions basées sur cette méthode il est extrêmement difficile de conduire de mise à jour de la structure de la base de données. Car, comme les mots-clés sont entrés manuellement, lorsqu’on modifie un mot-clef ou l’organisation des mots-clés, la seule manière de mettre à jour la base de données est de modifier les termes associés image par image. Aujourd’hui, de nombreuses expériences du domaine de la documentation du patrimoine ont adoptée cette méthode de sémantisation des images grâce à sa simplicité d’utilisation. Si on prend en considération cette méthode dans une utilisation basique, elle peut aujourd’hui répondre aux besoins exprimés par les communautés scientifiques et professionnelles concernées. Mais si l’on s’intéresse à l’apport potentiel de ces technologies dans le domaine de la documentation patrimoniale, il est certain qu’il y aura à terme un besoin plus important de manipuler des collections d’images beaucoup plus importantes et un besoin complémentaire d’augmenter la complexité des descriptions (plusieurs niveaux de détails). Au vu des limites actuelles de ces méthodes manuelles, il est d’hors et déjà évident que ces méthodes ne pourrons pas répondre aux besoins potentiels des utilisateurs de cette communauté. Définition d’une approche pour la sémantisation de sources iconographiques par référencement spatial .
Méthodes automatiques
Les méthodes automatiques d’annotation sémantique d’images se basent sur des techniques d’analyse d’image basées sur le contenu (content-based image analysis techniques) [Flickner M. et al., 1995]. Normalement, ces processus sont composés de deux tâches, la segmentations d’image (détection automatique les forme d’éléments dans l’image) et l’identifications d’objets (la comparaison entre les formes détectées et des objets cohérents dans une bibliothèque). L’identification des classes d’objets peut être réalisée en utilisant une combinaison des modèles particuliers [Winn J. et al., 2005 ; Fergus R. et al., 2003] (voir figure 22). Plusieurs chercheurs ont considéré ces deux tâches séparément. Par exemple [Kumar S. et al., 2004] se sont concentrés seulement sur le problème de la segmentation. Figure 22 Les résultats d’une détection sémantique proposée par le modèle TSI-pLSA de [Fergus R. et al., 2005] L’outil TextonBoost, proposé par [Shotton J. et al., 2006] combine la reconnaissance de formes et la segmentation d’images. Ils utilisent une combinaison de caractéristiques spécifiques appelé Texton pour encoder la forme, la texture et l’apparence de différentes classes d’objets. Bien que leur méthode a produit des résultats significatifs, les formes bruitées et les textures causent son échec sur les frontières des objets (voir figure 23). La maquette numérique comme support pour la recherche visuelle d’informations patrimoniales 40 Figure 23 Les résultats de la détection sémantique de TextonBoost [Shotton J. et al., 2006] Dans le domaine de l’architecture patrimoniale, il n’y a pas beaucoup de recherches s’appuyant sur l’analyse automatique de la sémantique d’image. Par contre, dans un domaine proche, certains chercheurs ont développé des méthodes et des outils pour analyser l’architecture urbaine. [Johansson B. et al., 2002a] proposent une méthode pour détecter un élément architectural simple dans la scène d’une ville, comme par exemple la détection automatique des fenêtres des bâtiments. Figure 24 Un exemple de détection sémantique à partir d’images aériennes [Akcay H.G. et al., 2007] À l’échelle urbaine, la sémantisation automatique d’images aériennes peut produire beaucoup plus de résultats utilisables. Des techniques spécifiquement développées pour la détection de bâtiments peuvent être trouvées dans la littérature de [Mayer H., 1999]. La détection automatique d’objets géographiques comme les structures urbaines se fondent sur la position, l’échelle et l’orientation d’éléments urbains dans l’image [Akcay H.G. et al., 2007]. (voir figure 24). La plupart des recherches sur l’analyse de l’image urbaine se concentrer sur la classification basée sur pixel. Les textures peuvent également être utilisés comme méthode alternative [Karathanassi V. et al., 2000 ; Bhagavathy S. et al., 2007]. Des éléments architecturaux ont également été utilisés pour classifier les régions d’images Définition d’une approche pour la sémantisation de sources iconographiques par référencement spatial 41 de zones rurales, résidentielles ou urbaines [Unsalan C. et al., 2005 ; Aksoy S., 2006 ] (voir figure 25). Figure 25 Les résultats de la détection sémantique d’images aériennes à l’échelle urbaine utilisant des patterns de bâtiment [Aksoy S., 2006] Analyse La sémantisation automatique par analyse d’image est en général très rapide et nécessite de moins de travail humain (par rapport à l’annotation manuelle). Malgré cela, les solutions actuelles, ne sont pas encore suffisamment précises et fiables. Au-delà du problème de la précision, les limites de cette méthode sont que le champ d’application possible est très restrictif. En effet, les deux étapes d’analyse d’image (segmentation et identification d’objets) doivent avoir les données de base appropriées. En ce qui concerne la segmentation d’image, le problème de la détection des formes est particulièrement difficile à traiter en particulier dans le cas d’images qui présentent beaucoup d’éléments hétérogènes à leur intérieur. D’autres problèmes sont du à la présence de plusieurs objets similaires ou quand la couleur et le contraste de fond est proche de celui du sujet principal de l’image. En ce qui concerne l’identification d’objets, les solutions actuelles nécessitent d’une très grande base de données afin de permettre l’identification de plusieurs typologies d’objets. Si la base de données ne contient suffisamment de modèles pouvant être superposés aux formes détectées dans l’image, ces systèmes ne peuvent pas reconnaître leur sémantique. Et même dans le cas où le modèle de l’objet détecté dans l’image est présent dans la base de données, il est aussi nécessaire que le point de vue (et donc la projection) de cette objet coïncide avec le ou les points de vue associés au modèle. C’est la raison pour la quelle l’utilisation de cette méthode dans les images aériennes est beaucoup plus fiable, car elle bénéficie d’un point de vue zénithale. En revenant à notre domaine d’intérêt, l’architecture patrimoniale, il est sur que les limitations actuelles des méthodes automatiques rendent ces méthodes particulièrement inadaptée aux besoins des scientifiques et des professionnels de ce La maquette numérique comme support pour la recherche visuelle d’informations patrimoniales 42 domaine. En effet, en termes de complexité d’image, les photographies d’édifices architecturaux sont souvent assez complexes d’un point de vue de la quantité d’éléments présents dans la scène (souvent de différentes tailles) et rarement bien identifiables. En ce qui concerne la constitution de bases de données d’images correspondantes aux formes architecturales, la richesse et la diversité du patrimoine architecturale empêchent d’imaginer d’identifier des classes d’éléments pouvant être superposés correctement aux éléments photographiés. Enfin, en ce qui concerne la variété de point de vue (ou de points de prise photographique), les photos acquises pour des besoins d’étude patrimonial ou de documentation sont souvent assez hétérogènes en termes de paramétrage e de configuration de prise de vue.
Méthodes semi-automatiques
Les méthodes semi-automatiques d’annotation sémantique d’images se basent sur des techniques combinant les solutions présentées précédemment (automatiques et manuelles). Des algorithmes sont utilisés pour le filtrage de la sémantique appropriée en utilisant les information textuelles liées à l’image ou par l’identification des contenus d’image (comme dans les méthodes complètement automatiques), puis l’utilisateur peut choisir manuellement les mots-clefs qui se rapportent à l’objet dans l’image. En employant le contrôle des utilisateurs, la sémantique obtenue est mises à jour de façon incrémentale. Intégrées à des interfaces appropriées, les méthodes d’annotation semi-automatique ont un grand potentiel en terme d’application à plusieurs domaines [Suh B. et al., 2004]. [Shen H.T. et al. 2000] ont employé une méthode dans laquelle les images sont utilisées pour indexer automatiquement d’autres images dans la même page Web. Ils emploient l’information textuelle riche de la page pour extraire des éléments de description potentielle des images. [Srihari R. et al., 2000] extraient du texte des entités textuelles (par exemple, les nom des gens, les nom des endroits et des choses, etc.) pour indexer automatiquement les images qui accompagnent le texte des pages web. Figure 26 Le processus de la détection sémantique du ARIA Définition d’une approche pour la sémantisation de sources iconographiques par référencement spatial 43 [Lieberman H., 2000] décrit le système ARIA (Annotation and Retrieval Integration Agent) qui intègre la récupération et l’utilisation d’image. Le système emploie l’extraction des mots présents dans les messages électroniques (dans lesquels des images sont incluses) pour indexer ces images (voir figure 26). Cette méthode semble fournir des résultats raisonnables, mais la précision du contexte textuel n’est pas aussi haute que l’indexation manuelle. [Wenyin L. et al., 2001] développent un système capable de générer et d’affiner progressivement des annotations sémantiques d’images de façon automatique en demandant à l’utilisateur la validation et l’organisation (ou la réorganisation) du résultat final (voir figure 27). Figure 27 L’interface de MiAlbum pour la recherche basée sur texte, pertinence de résultat et d’annotation semi-automatique [Ono et al. 1996] ont essayé d’employer des techniques d’identification d’objets pour choisir automatiquement des mots-clés descriptifs appropriés (dans un ensemble prédéfini) pour chaque image. Cependant, ils ont seulement examiné leur système avec des mots-clés et des images limités, ainsi la possibilité d’employer ce système dans un contexte plus général est peu claire. D’ailleurs, puisque les techniques d’identification d’image ne sont pas complètement fiables, les utilisateurs doivent en autre confirmer ou vérifier des mots-clés produits automatiquement par le système. Analyse Il est certes qu’en combinant les techniques automatiques et manuelles, les méthodes semi-automatiques d’annotation sémantique d’images permettent d’obtenir des résultats meilleurs en termes de précision et de productivité effective. Tout en restant probablement les méthodes les plus performantes, dans le domaine spécifique de la documentation architectural le problème de l’incohérence des formes persistent. Car les édifices historiques sont généralement très complexes et composés de nombreux éléments hétérogènes difficiles à classifier de façon préalable dans le dessein de constituer une base de modèles à utiliser pour la reconnaissance.