Détection et classification d’objets urbains à partir d’images photographiques aériennes

Les travaux de cette these ont  ete realises dans le cadre d’un contrat CIFRE  entre la societe Berger-Levrault et l’ equipe-projet ICAR du Laboratoire d’Infor-  matique, de Robotique et de Microelectronique de Montpellier (LIRMM).  La societe Berger-Levrault est experte du droit public des administrations  publiques dans les domaines de la sante, du sanitaire, du social, et de la gestion  de territoires. Son activite est  a 87% consacree a l’ edition de logiciel. Dans le  cadre de la gestion de territoires, Berger-Levrault met notamment a la disposi-  tion des collectivites locales une application de gestion des cimetieres, nommee E-cimetiere  .

Cette application propose un ensemble de solutions clef-en-main pour l’administration des cimetieres. Elle permet notamment le suivi et la gestion de  concessions, l’historique des travaux et des interventions, la gestion de factures… De plus, elle propose une cartographie des cimetieres en geolocalisant  l’ensemble des tombes et des concessions. Cela facilite la navigation dans le cimetiere et offre donc une meilleure gestion de celui-ci. Dans le futur, elle pourrait rattacher la position des concessions a leurs proprietaires afin de faciliter la  localisation par des visiteurs. Actuellement, la geolocalisation des tombes dans  les cimetieres est realisee par un expert geometre devant se deplacer et effectuer les releves sur le terrain. Cependant ce processus de cartographie est tres couteux en temps et en ressources .

Une des difficultes est de localiser automatiquement et precisement les  concessions dans les cimetieres. Une solution consiste  a rechercher ces objets  dans des images aeriennes. Pour effectuer cette tache de traitement de l’image,  Berger-Levrault s’est rapproche de l’equipe-projet ICAR en 2011. A la suite de  cette premiere collaboration deux stages ont  et e finances en 2011 et 2012. Ils ont  permis de tester des methodes connues de la litterature  a savoir l’approche de  Viola et Jones [116] et l’approche de Aldavert et al. [3]. Il s’est finalement avere que le probleme de la localisation des tombes dans les cimetieres n’ etait pas  simple et qu’il impliquait un investissement en recherche sur le long terme. C’est dans ce contexte que cette these a debute en 2013. Pour autant, cette  these traite de problemes plus larges de detection d’objets urbains que nous  definirons dans la prochaine section. Il est  a noter qu’un critere important est  de permettre a moyen terme une industrialisation des algorithmes developpes dans nos recherches. Cela implique que nous devons prendre soin d’optimiser les couts de calculs.

Afin de realiser ces travaux de these, la societe Berger-Levault a mis a disposition une collection d’images aeriennes en couleur de tres haute definition  de cimetieres de villes et villages franc¸ais. La resolution au sol varie de 2.5 cm  a 5 cm par pixel et la couleur est codee sur 3 canaux (rouge, vert et bleu) de 8  bits. Pour une zone donnee, plusieurs images sont acquises, puis elles sont orthorectifiees et mises en mosaıques afin de former une image continue. La taille des cimetieres varie de 5000 × 5000 a 11000 × 11000 pixels. Ces cimetieres proviennent de villages et villes, majoritairement de Haute-Marne, avec des tailles differentes et peuvent contenir quelques dizaines de tombes  a plusieurs milliers .

Dans cette these, nous cherchons  a reconnaıtre et a localiser des objets urbains et tout particulierement des tombes dans des images aeriennes. Nous  representons les images couleur par une matrice 3D notee Ix,y,z, avec x, y les coordonnees du pixel sur l’image et  z le canal couleur utilise. Dans notre cas,  nous utiliserons l’espace couleur rouge, vert et bleu pour l’encodage des images aeriennes, et donc  z ∈ {r, v, b }.

Les images peuvent se decrire de deux fac¸ons differentes. La premiere description est globale et consiste a caracteriser la totalite de l’image. Cela permet en particulier d’indexer et de retrouver des images dans des bases de donnees [20, 56]. Le second type de description est local et consiste  a extraire  un ensemble de descripteurs dans des sous-parties de l’image. Cet ensemble de descripteurs locaux peut egalement  etre utilise pour effectuer l’indexation  d’images. Cependant il est egalement possible de les utiliser pour effectuer de  la localisation d’objets, c’est-a-dire de detecter et positionner un objet qui ne re-  couvre que partiellement l’image. Chaque descripteur local est extrait dans une sous-partie de l’image delimitee par une fenetre, notee F, qui est en general de  taille constante. La localisation s’effectue en utilisant F comme une fenetre glissante, c’est-a-dire que  F va successivement tester toutes les positions de l’image globale. A chaque position de F, un descripteur sera extrait et permettra une classification.

Dans sa version la plus simple, un descripteur permettant de representer  le contenu de la fenetre F peut etre la liste des intensites des pixels qu’elle  contient. Cependant ce choix n’est pas le plus pertinent. En effet, la description de l’imagette contenue dans F ne sera pas robuste, c’est-a-dire que le moindre  changement sur l’imagette provoquera un changement sur le descripteur associe. Or les robustesses en traitement du signal et en traitement de l’image  sont tres importantes.

Le descripteur par histogrammes 1D consiste a construire de maniere  decorrelee un histogramme pour chaque canal couleur dans la fenetre  F. Aussi pour decrire la couleur dans une fenetre  F, chaque histogramme 1D comptabilise les intensites pixels d’une composante couleur. L’ensemble des histogrammes est ensuite concatene pour former un seul descripteur [43]. Ce descripteur ne considere pas les relations de voisinages entre les pixels et donc l’information relative a la spatialite des pixels est perdue, on parle alors d’un  descripteur avec un haut taux de certitudes.

Lors de problemes de localisation, la perte totale de l’information spatiale est un defaut majeur. Pour contrecarrer cela, il est possible de diviser  F en sous-regions qui sont appelees cellules. Un histogramme est alors calcule et  normalise sur chacune des cellules. L’ensemble des histogrammes est ensuite  concatene pour former le descripteur de couleurs final. Ainsi, pour conser-  ver un minimum de spatialisation, de multiples histogrammes sont construits sur des parties de F et sont ensuite concatenes. Cependant le descripteur ainsi  forme est de grande dimension et son utilisation est donc couteuse. Dans la  section suivante, nous introduisons un descripteur de couleurs possedant une  taille plus compacte et donc etant plus exploitable pour la classification.

Pour les deux approches decrites precedemment, les intensites des pixels  sont directement utilisees pour decrire l’imagette. Pour cela, la spatialisation  n’est pas entierement perdue mais aucune notion de voisinage n’est consideree.  Ces descripteurs sont tres performants dans le cas ou la couleur est tres discri-  minante ou en complement d’un second type de descripteur.

Dans notre cas, les tombes ne possedent pas forcement de couleur significative permettant de les distinguer d’un autre type d’objet. les tombes peuvent avoir une couleur tres proche de celle d’autres  zones de l’image globale : sol, potager, jardin… Il est alors interessant de ne  plus considerer seulement la couleur mais  egalement les relations de voisinage  entre les differents pixels de l’imagette. Pour cela, nous allons dans la prochaine  sous-section introduire la notion de texture.

Table des matières

1 Introduction
1.1 Contexte de la these
1.2 Presentation des donnees
1.3 Caracterisation d’un objet urbain
1.4 Bilan des difficultes du probleme
1.5 Plan
2 Extraction de caracteristiques
2.1 Introduction
2.2 Descripteurs photometriques
2.2.1 Les propriet´ es des espaces couleurs
2.2.2 Descripteurs par histogrammes
2.2.3 Descripteurs de moments
2.2.4 Bilan sur les descripteurs photometriques
2.3 Descripteurs de textures
2.3.1 Les descripteurs par co-occurrence
2.3.2 Les descripteurs par motifs binaires locaux
2.3.3 Bilan sur les descripteurs textures
2.4 Descripteurs de formes par analyse du gradient
2.4.1 Gen´ eralit ´ es sur les descripteurs de gradients
2.4.2 Histogramme de Gradient Oriente
2.4.3 Optimisation des calculs
2.4.4 Bilan sur les descripteurs de formes
2.5 Sac de mots visuels
2.5.1 Introduction et definitions
2.5.2 Vecteur de descripteurs agreg´ es localement
3 Classification pixel et classification objet
3.1 Les Separateurs ´ a Vaste Marge
3.2 Methodologie de classification pixel
3.2.1 Fonctionnement de la classification pixel
3.2.2 Optimisation avec une image integrale de la phase d’evaluation
3.3 Methodologie de classification objet
3.3.1 Fonctionnement de la classification objet
3.3.2 Optimisation avec une cascade de classifieurs
3.4 Comparaison de la classification objet et pixel
3.4.1 Travaux preliminaires
3.4.2 Comparaison des approches et ameliorations
3.4.3 Bilan de la comparaison des approches pixel et objet
4 Reseaux de neurones profonds
4.1 Introduction
4.2 Reseaux de neurones
4.2.1 Fonctionnement d’un reseau de neurones
4.2.2 De la non-linearit ´ e avec les fonctions d’activation
4.2.3 Reseaux de neurones stochastiques
4.3 Reseaux de neurones convolutifs
4.3.1 Couche de convolutions
4.3.2 Couche de sous-echantillonnages
4.3.3 Couche de normalisation
4.4 Utilisation des CNN pour extraire des caracteristiques sophis-tiquees
4.5 Reduction des temps de calculs
4.6 Discussions
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *