Estimation de la Valeur Locative par les techniques du Deep Learning

Estimation de la Valeur Locative par les techniques du Deep Learning

Traitements d’images

Le traitement des images a été réalisé avec le logiciel desktop ArcGIS sur la version Pro qui est une plate-forme que les professionnels des SIG utilisent pour gérer leurs Workflows et leurs projets SIG et pour développer des données, des cartes, des modèles et des applications. Il est également le point de départ et la fondation du déploiement du SIG dans les organisations et sur le web. Il est aussi utilisé pour publier et partager des informations géographiques avec d’autres. Les utilisateurs peuvent également : Partager avec d’autres utilisateurs professionnels des paquetages de cartes et d’autres paquetages SIG ; 18 Partager avec tout le monde via des appareils mobiles, le Web et des systèmes personnalisés en publiant des cartes et des services d’informations géographiques connexes au moyen d’ArcGIS for Server et ArcGIS Online. (ESRI, s.d.). Le traitement des images a pour objectif de préparer les données pour la mise en place du modèle. Il consiste à extraire toutes les informations pertinentes pour mener à bien notre étude.

Numérisation des bâtiments

La numérisation des bâtiments est le processus qui permet de créer manuellement des données vectorielles à partir des images. Ce travail a pour but de délimiter les différents bâtiments de la zone d’étude et l’emprise du terrain sur chaque bâtiment (Parcelle). Ainsi la délimitation de toute la zone d’étude a été faite dans le cadre du projet PAGCF et a permis la création de la couche parcellaire sur la base de la matrice cadastrale5 . Figure 9: Aperçu de la Création des emprises bâtiments et parcelles Les données vectorielles numérisées serviront de base de traitement pour la suite des fonctionnalités de traitement et d’extraction. La création des parcelles est suivie par la mise en place des numéros NICAD suivant une logique qui permet d’attribuer un numéro unique pour chaque parcelle. Après création des emprises parcelles et bâtiments, il sera possible de calculer les superficies à partir de la géométrie. La matrice cadastrale est la table d’information parcellaire qui contient 31 variables qui renseignent les informations foncières et domaniales de la parcelle . Figure 10: Création des superficies à partir des données vectorielles A l’issu de la création des superficies les attributs superficies bâties et non bâties seront calculés pour toutes les parcelles. La superficie du terrain représente la somme des superficies calculées. 20 Figure 11: Echantillon des données numérisées avec les superficies bâties et non bâties

Extraction des informations de proximité avec le réseau routier

Les informations de proximité avec le réseau routier permettent d’évaluer le niveau de confort des immeubles. Il s’agira donc d’extraire toutes les routes principales et pistes routières de la zone d’étude. Cette opération va être faite sur la base d’interprétation manuelle à partir des données. Pour cela nous commençons d’abord par créer une classe de données routes et numériser tous les axes routiers. Figure 12: Numérisation des routes L’opération de numérisation des routes exige de travailler à bonne échelle pour prendre en compte les virages ainsi que les portions de route. Ce travail de routine devra être faite pour toutes les pistes et axes routiers présents dans la zone d’étude. Ainsi, il est nécessaire d’afficher la vue globale pour avoir la situation . Figure 13: Progression de la numérisation des différents axes routiers A la fin de cette étape, les principaux axes routiers ont été numérisés et exportés sous formes de classe d’entités. Figure 14: Extraction des différents axes routiers Une fois les routes extraites, nous passons à la mesure de la distance de ces dernières avec les différents bâtiments de la zone d’étude. Pour cela nous allons extraire toutes les maisons se trouvant dans un rayon de 30m des routes principales. Ainsi, la prochaine étape consiste à classer les différents types de route. Pour cela nous allons créer un attribut code route qui permettra de classer deux types de routes 1 : Les routes principales 0 : Les routes secondaires. Figure 15: Création d’un attribut code_route pour classer les axes routes L’attribut code_route est créé. La prochaine étape consiste à codifier les différents axes. Figure 16: Codification des routes principales . Figure 17: Symbolisation des routes principales et routes secondaires Après la détermination des routes, nous pouvons extraire toutes les maisons se trouvant à la périphérie. L’opération est faite sur la base d’un BUFFER (zone tampon) qui permet de créer des polygones de rayon égale à 30 mètres sur chaque axe routier. Figure 18: Polygone de buffer de rayon 30m à partir des axes routiers La récupération des bâtiments de la zone du buffer se fait par une intersection géométrique grâce à la fonctionnalité de jointure spatiale. Cette opération peut être réalisée grâce à la bibliothèque python arcpy d’ArcGIS. Pour cela nous allons créer un fichier d’exécution python recuprer_batiment_proche_route.py 24 Figure 19: Programme python pour extraction des bâtiments proches de la route Ce fichier permet de réaliser l’intersection grâce à la commande suivante : arcpy.SpatialJoin_analysis(« Pikine Ouest », « Pikine_ouest_route_buffer »,Batiment_proche_route, » JOIN_ONE_TO_ONE », « KEEP_COMMON », » », » », » », » ») L’option JOIN_ONE_TO_ONE permet de faire la jointure pour chaque élément de la classe bâtiment ; L’option KEEP_COMMON permet de récupérer à la fin que les entités (bâtiments) qui sont à l’intérieur de la zone tampon. 25 Le script créé devra être exécuté comme une tache Geoprocessing dans ArgGIS. Figure 20: Création de tache Geoprocessing python sous ArcGIS Figure 21: Création de la tâche d’exécution du fichier python créé 26 Figure 22: Exécution de l’opération d’intersection L’exécution de la tache Geoprocessing se déroule avec succès. Et nous pouvons voir que tous les bâtiments qui ont intersectés la zone tampon ont été extraits. Figure 23: Création du shapefile contenant tous les bâtiments intersectés. Nous pouvons visualiser le résultat sur la figure suivante. 27 Figure 24: En vert les bâtiments situés à 30m des routes principales Le polygone de la zone de buffer génère un champ BUFF_DIST qui permet de calculer la distance de chaque entité par rapport au réseau routier. Figure 25: Distance des différents bâtiments avec la route

Modèle numérique de terrain

Les images présentent une structure 2D (Coordonnées à 2 dimensions), ce qui ne permet pas de relever automatiquement des données de base tels que la hauteur des bâtiments. Cependant, des 28 techniques de traitement d’images intégrées dans ArcGIS permettent d’extraire les informations utiles à notre étude avec une élévation de surface. Un Modèle Numérique de Terrain (MNT) est une représentation en 3D créée à partir des données d’altitude du Terrain d’une zone de la terre sous une forme adaptée à son utilisateur par un calculateur numérique. Toutefois, la détermination de l’élévation (hauteur des bâtiments) s’effectuera par des techniques de jointures sur la base des enquêtes de terrain menées lors du recensement qui a permis de relever le nombre d’étage des différents bâtiments de la zone d’étude.

Exploitation des données d’enquête

Dans le cadre du PAGCF une enquête de recensement des immeubles sur la zone d’étude a été faite. Les résultats de ces enquêtes disponibles dans l’application WEB ont été exportés sous format Excel et seront exploités pour compléter les données du modèle.

Présentation des données d’enquête

Les données d’enquête sont contenues dans un fichier Excel et renseignent sur 64 variables. Figure 26: Aperçu des données d’enquête.

Extraction des données d’enquête

Les données recensées sur le terrain ont servi à faire l’évaluation des immeubles de la zone PikineOuest, cette évaluation a été faite sur la base de la méthode classique et a permis de recueillir toutes les informations pertinentes pour le calcul des valeurs locatives notamment : Le nombre d’étage ; le type d’usage qui spécifie si c’est à usage d’habitation ou commercial ; la valeur locative annuelle ainsi que 60 autres variables qui permettent de décrire la nature du bien et les informations sur les propriétaires et les occupants. Ces données ont été obtenues par des enquêtes et sont corrélées directement aux parcelles grâce au NICAD. Dès lors, nous procédons par une jointure pour enrichir les attributs des parcelles. Figure 27: Jointure de la couche parcelle avec les données d’enquête A l’issu de ces traitements, nous avons pu regrouper toutes les formations dans une seule couche parcellaire. Ainsi la phase d’analyse pour la mise en place du modèle peut être entamée.

Mise en place du modèle de prédiction

La mise en place du modèle de prédiction se déroulera en quatre (4) étapes. La première étape consistera à étudier l’approche utilisée par le cadastre lors du test de la méthode indiciaire. Dans la deuxième étape, nous montrons notre jeu de données final alors que dans la troisième étape nous déterminons les variables pertinentes à l’apprentissage. Pour terminer, nous procéderons à la mise en place du modèle de prédiction dans la dernière étape.

Etude de l’approche utilisée par le cadastre sur la méthode indiciaire

Objectifs

La méthode indiciaire à piloter dans la moitié des sections dans le cadre du projet PAGCF vise à avoir les caractéristiques suivantes : 1. Reposer sur des critères d’évaluation déjà utilisés par le cadastre dans ses travaux d’évaluation. 2. Ne garder que des critères pouvant être observés sans pénétrer à l’intérieur des propriétés. 3. Être calibrée sur un échantillon assez large pour assurer une fiabilité statistique. Ainsi, le cadastre a pu travailler avec N=1,469. Ce qui dépasse de beaucoup la taille des échantillons disponibles d’habitude au niveau du cadastre. 4. Être calibrée sur des valeurs locatives récentes et collectées à travers un protocole harmonisé. 5. S’inspirer des meilleures pratiques existant dans d’autres villes/pays et d’une validation méthodologique par des praticiens experts de ces méthodes d’évaluation automatisées. 6. Être calibrée en utilisant une approche statistique agnostique, et en s’assurant dans la mesure du possible d’éviter les biais d’échantillonnage. 7. Transparence pour les contrôleurs dans le nouveau logiciel pour la phase d’expérimentation. Les caractéristiques relevées seront visibles dans le logiciel Web mis en place dans le cadre du PAGCF pour les contrôleurs, ainsi que les loyers recueillis, la photo de la propriété.

Table des matières

Introduction générale
A. Contexte et justification
B. Problématique
C. Objectif
a. Objectif global
b. Objectifs spécifiques
D. Plan du document
Chapitre I : Revue littérature
1.1 Généralités sur l’IA
1.1.1 L’apprentissage machine
1.1.1.1 Apprentissage profond et réseaux neuronaux
1.1.1.2 Réseaux convolutifs, réseaux récurrents
1.1.2 L’intelligence artificielle aujourd’hui. Ses enjeux
1.2 Méthodes d’évaluation cadastre
1.2.1 Méthode CAMA
1.2.2 Méthode REMOP
1.2.3 Méthode par point
1.3 Outils d’évaluation existant
Chapitre II : Modélisation et traitement des données
2.1 Délimitation de la zone d’étude
2.2 Modélisation du processus de traitement des données
2.3 Traitements d’images
2.3.1 Numérisation des bâtiments
2.3.2 Extraction des informations de proximité avec le réseau routier
2.3.3 Modèle numérique de terrain
2.4 Exploitation des données d’enquête
2.4.1 Présentation des données d’enquête
2.4.2 Extraction des données d’enquête
Chapitre III : Mise en place du modèle de prédiction
3.1 Etude de l’approche utilisée par le cadastre sur la méthode indiciaire
3.1.1 Objectifs
3.1.2 Méthodologie
3.1.3 Résultats
3.1.4 Flexibilité
3.2 Création du jeu de données final
3.2.1 Jointure données vectorielles et enquête de terrain
3.2.2 Jointure avec les bâtiments proches au réseau routier
3.2.3 Jointure avec la table des valeurs locatives calculées
3.2.4 Présentation du dictionnaire de données
3.3 Détermination des variables pertinentes à l’apprentissage
3.4 Mise en place du modèle de prédiction
3.4.1 Compréhension du problème
3.4.2 Généralités sur les méthodes de classification
3.4.2.1 Méthodes supervisées
3.4.2.2 Méthode non supervisée
3.4.2.3 Indicateur de performance en classification
3.4.2.4 Matrice de confusion
3.5 Analyse du jeu de données
3.5.1 Prétraitement des données
3.5.2 Normalisation des données
3.5.3 Standardisation des données
3.6 Application
3.6.1 Environnement de travail
3.6.2 Normalisation du jeu de données
3.6.3 Standardisation du jeu de données
3.6.4 Découpage des données d’apprentissage
3.6.5 Mise en place des modèles
3.6.6 Analyse du modèle
Conclusion et perspectives