Analyse de visibilité et géolocalisation en milieu urbain avec un modèle numérique 3D
Problématique, concepts et méthodes du domaine
Problématique d’ensemble Google établit un lien interactif entre les images (ou la visibilité en sens large) et la carte. Autrement dit, si l’on dispose d’une photographie, il est possible d’utiliser ce système pour trouver la position de la prise de vue. De la même manière, si l’on a la position d’un site que l’on souhaite visiter, le système peut nous décrire l’environnement visible depuis ce lieu grâce à l’imagerie. La continuité des images et du son intégré dans la vidéo donne plus d’informations qu’une série discrète d’images et il existe plusieurs solutions pour géolocaliser des vidéos décrivant un site géographique. Google Maps permet aussi de géolocaliser des vidéos. Un simple clic sur un emplacement de la carte affiche la vidéo qui a été précédemment géolocalisée à cet endroit (Figure 2). Geo-Movie est une application développée pour le sous-titrage géographique et temporel. Elle est utilisée dans les vidéos capturées par les sous-marins. Cet outil inscrit directement dans le corps de la vidéo des données telles que l’heure, la date, la longitude, la magnitude, la profondeur,… et les affiche en bas de l’écran (Figure 3). Figure 3. Système GeoMovie1 RedHen système est une solution militaire qui a pour fonction de géolocaliser les informations photo et vidéo capturées par avion. Une interface permet d’afficher la vidéo en parallèle avec la carte qui fournit la position de la caméra (Figure 4). Acadia Video-GPS est un système militaire d’exploration qui utilise un SIG et un système de traitement d’images pour géolocaliser les cibles dans la vidéo, et organiser les missions sur le terrain (Figure 5). Figure 5 Acadia Video-GPS3 On peut aussi envisager une approche différente, en assurant la géolocalisation non pas au moment de la prise de vue, mais ensuite, à partir du contenu de la photographie ou de la vidéo. On pense bien sûr à une géolocalisation par la reconnaissance de certains objets de la photographie en question dans d’autres photographies ou vidéos déjà localisées. Cela peut fonctionner essentiellement en milieu urbain et plus exceptionnellement en milieu rural pour des bâtiments ou monuments facilement reconnaissables. Cela apparaît difficile à envisager pour des lieux plus banals sans monuments facilement reconnaissables. En revanche, en milieu urbain, les bâtiments possèdent des façades remarquables dont la géométrie particulière peut permettre leur reconnaissance dans les photographies. Mais cela nécessite de gérer le problème complexe des multiples angles de vue d’un même lieu qui perturbe l’appariement de deux photographies prises dans des conditions de prise de vue différentes. Par ailleurs, plutôt que de partir au hasard à la recherche d’éléments d’images, il semble intéressant de s’appuyer sur les bases de données géographiques existantes et plus spécifiquement sur les modèles 3D qui reconstituent de manière plus ou moins fidèle un environnement urbain ou rural. Il est de plus en plus courant de mettre en correspondance des modèles numériques 3D des lieux avec des objets qui font l’objet d’une captation in situ. Cette association peut servir à superposer visuellement à ce qui est visible sur le terrain des objets numériques localisés. Il s’agit d’une approche de réalité augmentée qui ajoute aux scènes vues à travers un dispositif spécial des éléments tirés de l’environnement numérique en 3D. Il s’agit pour l’instant d’objets numériques simples dans les applications grand public, mais on utilise de plus en plus des environnements complexes, intégrant des bâtiments disparus ou à construire qui s’ajoutent à la vue réelle de l’utilisateur. Une autre approche est de connecter, aux environnements 3D d’un lieu, des objets issus d’une captation in situ. Un des exemples les plus célèbres et les plus aboutis est la combinaison de Google Earth et de Google StreetView. Google StreetView localise des images prises à la volée, grâce à un véhicule spécialement conçu pour ce genre d’acquisition. Les photographies sont ensuite visibles dans Google Maps, sur fonds cartographiques, sous forme d’une série d’images panoramiques. Les photographies géolocalisées prise à 360 degrés sont mises en continuité avec la reconstitution numérique 3D de l’environnement (Figure 7-8). Saint-Etienne, cathédrale St Charles Grotte Vallée de Cotatay (Le Chambon-Feugerolles) Figure 7. Environnement 3D dans Google Earth Figure 8. Google Street View Ce couplage entre vues in situ et modèle numérique ouvre un grand nombre d’applications dans de multiples domaines. Dans certains lieux, Google superpose aux vues 360° de Street Analyse de visibilité et géolocalisation en milieu urbain avec un modèle numérique 3D 16 View dans Google Map les photographies prises par des amateurs et publiées sur le site Panoramio4 . Un site comme http://www.whatwasthere.com/ associe des photographies anciennes à des images de Street-View (Figure 9). Il devient alors possible de les visualiser en superposition aux images à 360°. Figure 9. Association des photographies anciennes à des images de Street-View Ce couplage photographie/modèle numérique 3D peut être utilisé pour géolocaliser la photographie. Dans le présent travail, nous proposons d’aller chercher dans la base de données des indicateurs préalablement stockés, qui permettraient d’associer automatiquement les images aux bâtiments. Si chaque façade d’un bâtiment dispose d’un indicateur de texture5 , il est possible d’apparier une image avec un bâtiment à partir de cet indicateur et donc de localiser l’image. La généralisation des modèles numériques 3D géospécifiques urbains, dans lesquelles on habille sur chaque façade de bâtiment une image captée automatiquement sur le terrain, va faciliter la constitution de bases de données géographiques comportant un indicateur de texture.La texture est liée à la présence de fenêtres, au changement des couleur et aux éléments en relief de la façade. La démarche inverse est aussi envisageable. Elle consiste à documenter les objets présents dans la photographie et la vidéo en fonction de ce qui est théoriquement visible depuis un point de vue donné. Il s’agit de reconstituer dans l’environnement numérique un équivalent de la captation effectuée dans le monde réel. Cela nécessite de pouvoir effectuer le calcul de l’espace visible, qu’on nomme dans la littérature isovist, fondé sur un modèle numérique de l’environnement. Ce calcul permettrait de décrire les objets que l’on peut théoriquement voir dans le modèle 3D. Il serait aussi possible de produire des indices de visibilité multiples associés aux objets. Ces différents exemples amènent à concevoir une méthode complète qui analyse les objets de l’image pour la localiser, puis calcule la visibilité afin d’estimer les objets potentiellement visibles depuis la position initiale afin d’associer ces photographies ou vidéos aux objets de la base de données, et, réciproquement, d’associer aux photographies prises de ce point de vue des informations issues de la base de données. Dans ce cadre, ce travail de recherche porte spécifiquement sur deux problématiques : la localisation d’une prise de vue et l’analyse de visibilité en milieu urbain à l’aide d’un modèle 3D. Pour la localisation d’une prise de vue par image, une méthodologie a été développée afin d’enrichir une base de données urbaine SIG grâce à un descripteur de textures de façade, calculé sur des images de référence. Ce descripteur est ensuite utilisé pour retrouver ce bâtiment dans une nouvelle photographie non localisée, et le localiser dans une base de données SIG 3D afin d’estimer la position et l’orientation de la prise de vue dans le monde réel. La qualité des résultats obtenus est évaluée en fonction des paramètres de prise de vue de la photographie. La deuxième problématique porte sur le calcul de la visibilité en 3D, pour lequel nous présentons deux méthodes. La première utilise un nuage de points 3D et la seconde un nouvel algorithme basé sur l’angle solide6 . La preuve de concept est établie dans un environnement SIG 3D des bâtiments, reconstitués numériquement et intégrant le relief. Notre étude est basée sur des technologies existantes en plein développement. Les résultats obtenus montrent qu’elles peuvent être mobilisées dans une grande variété d’applications. 6 http://fr.wikipedia.org/wiki/Angle_solide Analyse de visibilité et géolocalisation en milieu urbain avec un modèle numérique 3D
Reconnaissance des bâtiments dans une image et géolocalisation de la prise de vue
La reconnaissance des éléments géographiques dans la littérature se limite actuellement aux bâtiments. La reconnaissance des bâtiments est une étape essentielle pour développer les usages de la réalité augmentée dans un environnement urbain. En effet, la réalité augmentée est un moyen efficace pour ajouter des annotations ou des objets virtuels sur les façades des bâtiments. Les informations ajoutées peuvent par exemple être historiques, si l’on se réfère à un bâtiment ancien, ou informationnelles comme la programmation d’un lieu culturel ou les horaires des trains dans une gare. Nous pouvons utiliser aussi cette identification comme un point de repère pour orienter des visiteurs ou des touristes. Des applications pour les portables ont déjà été imaginées par Amlacher, Paletta, Luley, Fritz et Almer (2008). Notre problématique est d’estimer la précision des calculs par rapport à la réalité. Plusieurs critères sont à prendre en compte pour cette estimation : Notre modèle est-il complet ? Autrement dit, contient-il tous les éléments nécessaires : couvert végétal, infrastructures électriques ou publicitaires, nouveaux bâtiments, etc. Notre modèle est-il précis ? Les positions et les hauteurs des bâtiments ou des arbres sont-elles correctes ? Notre modèle est-il à jour ? Un arbre en hiver qui n’a pas de feuille n’aura pas la même influence sur la visibilité que le même arbre en été. Une des raisons de la différence entre le calcul du champ de visibilité et la réalité est liée à la prise en compte de la portée de la distance de vue. Pour calculer le champ de vision nous définissons une distance ou un rayon de vision R. Cette distance est essentielle pour que le calcul soit faisable technologiquement. Cette limitation dans la distance de vision peut causer une différence avec la réalité. Par exemple si la distance du calcul de champ de visibilité est de 1 km nous ne distinguons évidemment pas un bâtiment ou une montagne situés à 5 km, pourtant parfaitement visibles dans la réalité. Nous explorons deux méthode de reconnaissance, le premier basé sur l’appariement entre l’image de synthèse et l‘image réelle, le second sur la recherche de texture. Analyse de visibilité et géolocalisation en milieu urbain avec un modèle numérique 3D
Reconnaissance des bâtiments par l’appariement entre l’image de synthèse et l’image réelle
L’image réelle est l’image qu’on peut avoir par une prise de vue dans un espace quelconque. L’image de synthèse est l’image obtenue à partir d’une modélisation en 3D de cet espace. Dans la littérature, nous avons trouvé plusieurs tentatives de couplage entre des images réelles en 2D et les images de synthèses en 2D, pris dans des modèles SIG 3D, par appariement des primitives (coins, lignes) comme dans la Figure 10, cette opération est appelée couplage (2D/3D). Le couplage (2D/3D) est essentiel pour les applications de réalité augmentée, pour l’extraction de texture et pour les applications de navigation virtuelle. Microsoft et Shum (1998), Debevecet al (1996) et Karner et al (2002) demandent à l’utilisateur de faire ce couplage de manière manuelle. Teller et al (2003), Liu et Stamos (2005) proposent l’utilisation d’un modèle 3D LIDAR à haute résolution, encore cher et peu disponible. Reitmayr et Drummond (2006) utilisent un modèle SIG 3D texturé pour améliorer l’extraction des côtés de façades et le processus d’appariement. Sourimant (2009) proposent une méthode supervisée pour réaliser l’appariement. Cette méthode est basée sur l’algorithme de RANSAC écrit par Fischler et Bolles (1981). La méthode de Sourimant (2009) est construite à partir de trois éléments : 1) Estimation initiale de la position et l’orientation de la prise de vue qu’on appelle matrice de transformation 7 . 2) Existence d’un modèle 3D précis. 3) Possibilité d’extraire les bâtiments sans occlusion (voiture, être humain, autre bâtiment). Bioret et al (2009) ont trouvé un moyen de calculer l’angle entre deux façades d’un bâtiment en utilisant les points de fuite présents sur l’image. Ils recherchent ensuite le même angle entre deux façades dans la base de données 2D des bâtiments, établissant ainsi un couplage entre l’imagerie et la base de données géographiques. Dans la thèse qu’il a soutenue l’an dernier dans notre laboratoire, Youssef Attia propose de son côté une approche systématique de ce problème fondée sur l’appariement de lignes extraites de photographies d’ensembles de bâtiments urbains avec celles extraites d’un échantillon systématique d’images de synthèse produites à partir d’un modèle numérique 3D 7 La matrice de transformation pour la caméra définit la relation entre les coordonnées des points 3D dans le monde réel et des points 2D sur l’image d’une prise de vue. On la nomme aussi matrice de projection (http://fr.wikipedia.org/wiki/Calibration_de_caméra). Analyse de visibilité et géolocalisation en milieu urbain avec un modèle numérique 3D 20 (Attia 2012). Cette approche statistique est utilisable potentiellement pour localiser des photographies sans référencement géographique précis. (a) Modèle 3D de bâtiment (b) Le couplage des coins et lignes de l’image 2D et le modèle SIG 3D (Sourimant, L. Morin, K. Bouatouch 2009)
Reconnaissance des bâtiments à partir de leurs textures
Cette méthode est basée sur des images stockées de bâtiments. La méthode cherche à mettre en relation la texture des images stockées et la texture dans l’image de recherche. Cette méthode a été développée par Yu-Chia Chung, Han et Zhihai He (2009) Amlacher, Paletta, Luley, Fritz et Almer (2008) Zhang (2005). La mise en relation est faite par une extraction d’un descripteur de texture. Dans la littérature il y a deux types de descripteurs de textures : Le descripteur global de texture que l’on trouve dans les travaux de Haralick, Shanmugam et Dinstein (1973) et Ojala, Pietikäinen et Mäenpää (2002). Ce genre de descripteur est utilisé pour la classification de textures par Khoo, Ong et Wong (2008) comme les texture des forêts, des bâtiments etc. Nous n’avons pas utilisé ces méthodes car notre objectif était de chercher spécifiquement à identifier les façades des bâtiments. Le descripteur local d’une texture qui est un ensemble de caractéristiques des pixels de l’image autour des points d’intérêt. Un point d’intérêt est un point possédant une valeur spéciale (maximum ou minimum local, par exemple) d’une fonction mathématique appliquée sur l’image. Un exemple de cette fonction est le filtre de Canny, qui détecte les contours dans une image. Le descripteur local d’une texture permet de trouver ces points d’intérêt dans une autre image du même objet en utilisant les mêmes caractéristiques locales. Analyse de visibilité et géolocalisation en milieu urbain avec un modèle numérique 3D 21 Mikolajczyk et Schmid (2005) ont fait plusieurs tests sur les descripteurs locaux disponibles. Ils ont trouvé de bons résultats en utilisant la méthode SIFT (ScaleInvariant Feature Transform) par Lowe (2004). Cette méthode est robuste pour les changements d’échelle, les rotations et les transformations affines. Nous revenons plus précisément sur une évaluation de cette approche ci-dessous au § 2.2. Bay et al (2008) ont également proposé une méthode intéressante en utilisant un descripteur de texture SURF (Speeded Up Robust Feature). Ce descripteur permet des calculs plus rapides que le descripteur SIFT et il est déjà appliqué dans les applications pour appareils portables8 . Dans les tests que nous avons effectués sur Matlab avec le code SIFT développé par VLFEAT1 et le code SURF développé par OPENSURF2, la méthode de SIFT a donné de meilleurs résultats dans le cas d’un changement d’angle de vue. C’est pour cette raison que nous avons utilisé la méthode SIFT. Le problème des méthodes locales vient des erreurs dans les appariements. Pour reconnaître les façades d’immeubles dans une image, il faut d’abord extraire le descripteur SIFT et le comparer ensuite aux descripteurs SIFT stockés dans la base de données SIG. On choisit alors la façade qui a le plus grand nombre de points d’intérêt coïncidant avec les points d’intérêt de l’image. L’appariement, c’est-à-dire la mise en correspondance entre les points d’intérêt, est réalisé en fonction d’un seuil déterminé de distance entre les descripteurs locaux. Il peut parfois se produire des erreurs d’appariement en utilisant la méthode SIFT qui sont dues au fait que le descripteur ne décrit qu’une partie locale de l’image autour du point d’intérêt (Figure 11. ).
Introduction générale |