Procédures de perception en vision par ordinateur
Modèles généraux de perception en vision artiicielle Les procédures de perception en vision par ordinateur fonctionnent à l’image d’un « entonnoir »:le capteur délivre, après digitalisation, un grand volume d’informations sur une scène, plusieurs procédures sont mises en œuvre séquentiellement pour réduire ce volume sans perdre l’information pertinente qui permettra de délivrer une interprétation inale appartenant à un ensemble ini et réduit d’interprétations possibles (par exemple les 26 lettres de l’alphabet pour un système de reconnaissance de caractères imprimés). Pour mener à bien cette réduction, les procédures convertissent la représentation des informations présentes dans l’image numérique en une nouvelle représentation plus compacte appartenant à un espace différent de celui d’origine. Ces procédures combinent des fonctions de traitement de signal classique avec des fonctions de reconnaissance des formes ain d’aboutir à une interprétation d’une scène. Nous allons nous intéresser dans ce chapitre à trois modèles généraux de reconnaissance : − la corrélation de motifs (« pattern matching »); − la reconnaissance des formes fondée sur la théorie de la décision ; − la reconnaissance des formes structurelle. Nous nous intéressons plus particulièrement aux deux derniers modèles, dont le premier relève à la fois selon le point de vue duquel on se place. Les igures n° 10 et 11 en montrent les principes de mise en œuvre de ces deux approches Pour chacune des deux approches, on retrouve des similarités : − deux modes de fonctionnement, l’analyse et la reconnaissance ; − deux étapes identiques, le prétraitement et la segmentation. Robotique et Vision par Ordinateur Page 29 L’analyse ou apprentissage permet au système, avec l’aide d’un opérateur (supervision), d’apprendre les objets qu’il aura à reconnaı̂tre ou les interprétations à produire sur une scène . La reconnaissance représente la phase opérationnelle du système. Figure 10 : Système de reconnaissance des formes statistique Le prétraitement permet au système de prendre en compte les dégradations subies par le signal ou dues à un certain nombre de modiications de l’environnement externe ou au comportement du système de numérisation. La segmentation a pour but de construire une représentation des ensembles de données homogènes issues du prétraitement. Sur les données segmentées sont calculés dans l’un des cas des attributs et dans l’autre des primitives géométriques. Les attributs sont des mesures sur les ensembles de données homogènes, les primitives permettent d’élaborer une construction structurée de l’image de ces mêmes ensembles. Les objets représentés par des structures construites sur un ensemble de primitives élémentaires sont mémorisées pour être utilisées ensuite par une méthode de reconnaissance comparative. Robotique et Vision par Ordinateur . Figure 11 : Système de reconnaissance des formes structurelle En reconnaissance des formes structurelle, deux approches peuvent être distinguées : − l’analyse syntaxique ; − la théorie des graphes. Pour cette dernière, la structure de représentation est un graphe de primitives modélisant leurs relations les unes avec les autres pour décrire un objet dans la scène. La reconnaissance s’effectue alors par recherche d’isomorphismes entre graphes et sous-graphes d’un modèle et la structure issue d’une nouvelle numérisation. En analyse syntaxique, les primitives sont assimilées à un vocabulaire et l’objet à reconnaı̂tre par l’ensemble des phrases possibles sur ce vocabulaire. L’apprentissage consiste alors à construire la grammaire des règles permettant d’analyser ces phrases. La reconnaissance revient à vériier que toute nouvelle phrase est admissible par cette grammaire. Cette voie est rarement implantée dans les systèmes de vision disponibles sur le marché car l’inférence automatique de grammaires pose encore des problèmes à résoudre. Par contre, il existe des systèmes dédiés à des domaines particuliers d’application qui suivent cette approche (vériication de circuits intégrés ou imprimés). Il en est de même pour la corrélation de motifs bien que cette approche conserve la faveur des utilisateurs de systèmes de vision en inspection pour la facilité de mise en œuvre.
Faisabilité d’une application en vision par ordinateur
Nous avons vu qu’en fonction du choix du capteur, certaines contraintes peuvent être dificile à satisfaire : − le précision des mesures ; − le temps de réponses. La rapidité d’exécution peut être obtenue par déport des problèmes logiciels sur le matériel (algorithmes câblés), mais à des coû ts économiques qui ne permettent pas forcément d’amortir aisément l’investissement d’un tel matériel. D’autres contraintes peuvent intervenir sur la faisabilité d’une application de vision par ordinateur . Elles viennent principalement de la complexité de la scène à analyser : le diagramme issu de [1] tente d’en construire une classiication (igure n°12). La complexité croı̂t lorsque l’on se déplace sur la diagonale du cube depuis l’origine. Nous avons vu que le mouvement pouvait être un atout (pour satisfaire une bonne précision avec une barrette grâce à une translation uniforme) comme un défaut (vitesse de déplacement trop élevée en comparaison du temps d’acquisition). Lorsqu’on utilise des systèmes de perception bidimensionnelle pour appréhender un univers tridimensionnel, ces systèmes ne prennent en compte que la vue projective des objets dans un plan de vision : cela limite la possibilité d’analyse des objets dans l’espace. De plus lorsque ces objets ont plusieurs positions d’équilibre planaire, celles-ci doivent être distinguées par le système de vision pour mener sans erreur une procédure d’interprétation. Robotique et Vision par Ordinateur Page 32 Figure 12 : Complexité d’une scène visuelle Enin le dernier axe modélise l’arrangement des objets dans une scène : les objets peuvent être traités de manière isolée (un seul objet par prise de vue), présentés ensemble de manière séparée (sans contact) ou en vrac. Pour les objets en vrac, on distingue : − le vrac planaire (objets en contact ou en recouvrement partiel sur un plan) ; − en vrac vrai (objets empilés en hauteur). Robotique et Vision par Ordinateur Page 33 Et le vrac peut être qualiié d’ordonné, de semi-ordonné (palettes de stockage ou de transfert) ou non. Nous verrons par exemple que les modèles de vision fondés sur la théorie de la décision supportent mal les organisations en vrac.
Prétraitement d’une image
Le prétraitement représente une phase préparatoire à la segmentation d’image. D’une part, il permet d’éliminer les dégradations subies par une image (amélioration, restauration d’image). D’autre part, il permet de fournir les données suivantes à l’étage de segmentation pour que celui-ci identiie les zones homogènes de l’image. En réalité, le volume d’informations à traiter est tellement important que les seules procédures de iltrage mises en œuvre sont celles qui sont nécessaires à la segmentation et que l’on se satisfera de travailler sur l’image brute sans l’améliorer. Deux manières de préparer une segmentation d’image sont : − binariser l’image pour séparer les objets d’intérêt du fond de la scène; − d’appliquer un iltre de dérivation pour détecter les frontières des zones d’intérêt. Pour binariser une image à niveaux de gris, il faut choisir un seuil de binarisation. Pour déterminer ce seuil, on analyse en général l’histogramme de l’image (cf. igure n°13). On se place dans la situation où l’objet d’intérêt a une réponse lumineuse opposée à celle du fond de la scène (objet foncé sur fond clair dans le cas présenté dans la igure). L’histogramme de l’image présente alors deux modes : un maximum pour l’objet et un autre pour le fond séparés par une vallée (un minimum) séparant les deux modes. Lorsque l’objet produit des ombres sur le fond, un troisième mode apparaı̂t dans l’histogramme : on choisit alors la vallée la plus proche de l’objet pour agréger les ombres dans le fond de la scène. Le choix du seuil est réalisé de préférence sur la version lissée de l’histogramme pour supprimer les modes parasites du bruit de numérisation. Il faut remarquer que ce choix doit être mis à jour à chaque nouvelle acquisition pour s’affranchir des variations d’ambiance lumineuse et de la dérive thermique des étages analogiques.