Approche de la modélisation statistique en évaluation foncière

Cours approche de la modélisation statistique en évaluation foncière, tutoriel & guide de travaux pratiques en pdf.

HYPOTHÈSES SOUS-JACENTES À LA MÉTHODE DE RÉGRESSION LINÉAIRE MULTIPLE

La méthode de régression linéaire multiple reposant sur la théorie statistique et la notion de probabilité, son application demeure sujette au respect d’un certain nombre d’hypothèses reliées aux propriétés de la distribution normale, laquelle domine l’économétrie traditionnelle et conditionne la validité des résultats obtenus avec l’approche par modélisation statistique. La distribution normale de probabilité, se traduisant graphiquement par la fameuse « courbe en cloche », est l’un des concepts les plus fondamentaux en statistique, du fait qu’un grand nombre de méthodes et d’applications statistiques reposent sur cette loi. Cela tient en fait aux raisons suivantes :

  • les mesures obtenues dans de nombreux processus aléatoires peuvent être considérées comme obéissant à une loi normale;
  • sous certaines conditions assez fréquemment rencontrées, une distribution normale de probabilité peut être utilisée comme une bonne approximation d’une autre distribution statistique (p. ex. : distribution binomiale ou distribution de Poisson);
  • la distribution de certaines statistiques, telle la moyenne d’un échantillon, obéit souvent à une loi normale de probabilité, quelle que soit la distribution de la population sur laquelle est prélevé l’échantillon.

La distribution normale présente le grand avantage de n’être tributaire que de deux paramètres, soit la moyenne d’une distribution (µ) et sa variance (s ² ). Elle possède, par ailleurs, les propriétés suivantes :

  • la loi normale étant une loi de probabilités, l’aire sous la courbe et l’axe horizontal est de « 1 » (ou 100 %);
  • la courbe normale est symétrique par rapport à la moyenne, laquelle divise donc l’aire en deux portions égales;
  • puisque la courbe est symétrique, il est possible de présumer que moyenne = médiane = mode;
  • la loi normale étant entièrement définie par ses deux paramètres µ et s ², on obtient donc une distribution normale différente pour chaque valeur de µ et de son écart type (s);
  • l’axe des abscisses est une asymptote, c’est-à-dire, à mesure que la moyenne s’éloigne, la courbe se rapproche de l’axe horizontal sans, toutefois, jamais le toucher. Par ailleurs, 68,3 % des valeurs probables sont comprises à l’intérieur des bornes définies par µ ±1s, alors que 95,4 % le sont à l’intérieur de l’intervalle µ ± 2s ; donc, l’aire située sous la courbe au-delà de µ ± 3s est négligeable (probabilité d’occurrence inférieure à 1 %).

Il est essentiel de préciser que, dans le cas d’une distribution s’éloignant sensiblement de la normale, les propriétés de la distribution normale ne s’appliquent pas et les outils statistiques qui en dérivent ne peuvent être utilisés sans en préciser les limites.
Pour l’évaluateur immobilier, le recours à la régression linéaire multiple requiert que certaines hypothèses particulières soient respectées. Elles sont résumées ci-après et assorties de commentaires appropriés1.

Existence de données complètes et fiables

La qualité d’un modèle statistique étant intimement liée à la qualité des informations servant à le construire, l’évaluateur doit apporter un soin particulier à la confection de la base de données, à sa validation et, éventuellement, à sa mise à jour (voir le point 3.8.1 de ce chapitre).

Linéarité de la relation découlant de la modélisation statistique

En vertu de cette hypothèse, la contribution marginale d’un attribut à la valeur marchande de l’unité d’évaluation est constante, quelle que soit la valeur prise par la variable. Comme il est mentionné plus loin (voir le point 3.9.2 de ce chapitre), il est possible de transformer mathématiquement les variables pour tenir compte des relations non linéaires, fréquentes en évaluation foncière. Le recours à un modèle multiplicatif constitue également une solution au problème.

Caractère additif des termes de l’équation
Corollaire de l’hypothèse précédente, l’additivité des termes de l’équation de régression implique que la contribution marginale d’un attribut résidentiel donné n’est pas affectée par les autres variables du modèle. Dans les faits, il existe souvent une interaction entre la contribution des attributs quantitatifs d’une propriété (p. ex. : l’aire habitable) et celle découlant de ses éléments qualitatifs (p. ex. : son état ou sa localisation). Ici encore, la transformation des variables, en particulier le recours à des variables interactives, permet de pallier à cet inconvénient. Il est possible, également, de recourir à la forme multiplicative (voir le point 3.9.2 de ce chapitre) ou au modèle hybride 2.

Indépendance des variables explicatives

Le recours à la régression linéaire multiple requiert en principe que les variables explicatives du modèle soient indépendantes les unes des autres. Dans le cas contraire, il y a présence de multicolinéarité, un problème classique en évaluation de masse et qui tient à la nature même des données immobilières. Il importe ici de préciser que les effets pervers de la multicolinéarité (instabilité et incohérence des coefficients de régression; tests statistiques invalidés) sont fonction du degré de gravité du problème. Une certaine corrélation entre les variables explicatives est, à toutes fins pratiques, inévitable, comme en fait foi l’analyse des corrélations (voir le point 3.10 de ce chapitre), et sans conséquences fâcheuses. C’est la présence de

  • Tiré de IAAO, Property Appraisal and Assessment Administration, Ed. J. K. Eckert, Chicago 1990, p. 385-388.
  • En raison de sa complexité, le modèle hybride, combinant variables additives et multiplicatives, n’est pas couvert dans le présent chapitre. Le lecteur intéressé par cette approche pourra consulter l’ouvrage de l’IAAO, p. 388-389. Il pourra, également, consulter l’article suivant constituant un exemple d’application des modèles hybrides au marché locatif de la région de Québec :

Des Rosiers, François et Marius Thériault, « Implicit Prices of Rental Services: Modeling the Quebec Market », Assessment Journal , Vol. 1, no 4, juillet-août 1994, p. 47-60.
corrélations excessives (c.-à-d. supérieures à 80 %) caractérisant la multicolinéarité imparfaite qui risque de poser problème1. Quant à la multicolinéarité parfaite, impliquant l’existence d’une combinaison linéaire exacte entre deux ou plusieurs variables, elle ne peut être tolérée par la procédure de régression qui génère alors un message d’erreur. La multicolinéarité peut être mise en évidence par une analyse attentive des résultats de la régression et par l’application du test VIF (Variance Inflation Factor) dont il sera question plus loin (voir le point 3.11.1.1 de ce chapitre). La solution au problème passe par l’élimination de la ou des variables qui sont à la source de la colinéarité, par la substitution d’une variable interactive aux deux variables fortement corrélées ou par l’application de la procédure de régression par étape (Stepwise), éliminant automatiquement de l’équation toute caractéristique dont la contribution marginale à la valeur réelle n’est pas suffisamment significative.

Normalité dans la distribution des résidus

Les termes d’erreurs, ou résidus, du modèle de régression doivent, tout comme la variable dépendante, suivre une distribution normale. La violation de cette hypothèse a pour effet de fausser l’interprétation de l’erreur type de prévision, tant absolue que relative, puisque les intervalles de confiance ne correspondent plus aux propriétés de la courbe normale, telles que définies au point 3.4.4 de ce chapitre. De plus, la valeur « F » et les valeurs « t », testant respectivement la performance globale du modèle et la fiabilité des paramètres de la régression, c.-à-d. les coefficients des variables explicatives, sont également affectées par le problème. Ce dernier tient parfois à des déficiences dans la base de données, mais plus généralement à une mauvaise spécification des variables ou de la forme fonctionnelle du modèle, qui doivent donc être revues en conséquence.

Constance dans la variance des résidus

En plus d’être distribués normalement, les termes d’erreurs doivent être caractérisés par une variance constante qui demeure donc indépendante du niveau de prix des immeubles vendus. En d’autres termes, les erreurs de prévisions commises sur les immeubles les plus dispendieux de l’échantillon ne doivent pas présenter une plus forte dispersion que celles caractérisant les unités bas de gamme. La violation de cette hypothèse, dénommée hétéroscédasticité (c.-à-d. variance non homogène), se traduit par un modèle de régression dont les estimations portant sur les unités de faible valeur sont moins fiables, parce qu’influencées par les immeubles plus luxueux. Plusieurs solutions existent pour contrer les effets de l’hétéroscédasticité, depuis la transformation de la variable dépendante, en la divisant par exemple par l’aire habitable, ou l’utilisation d’une forme fonctionnelle multiplicative, jusqu’au recours à la procédure WLS (Weighted Least Squares, ou Moindres carrés pondérés). Ceci dit, la prévention demeure la meilleure approche : d’une façon générale, une segmentation judicieuse des sous-marchés immobiliers minimise l’importance du problème. L’évaluateur veille ainsi à ce que l’étendue de la distribution des prix de vente ne soit pas excessive (voir le point 3.9.1.1 de ce chapitre), le segment modélisé demeurant relativement homogène.

Indépendance des termes d’erreurs

Les résidus du modèle de régression étant en principe liés au hasard, ils doivent être indépendants les uns des autres. Dans le cas contraire, ces résidus sont confrontés au phénomène d’autocorrélation des erreurs. Dans les analyses en coupe instantanée (« cross-sectional analysis »), situation s’appliquant plus particulièrement ici, il arrive fréquemment qu’un phénomène, affectant l’activité économique d’une zone ou le comportement de ses résidants, ait des répercussions analogues sur les zones voisines : c’est l’autocorrélation spatiale. Omniprésente en analyse spatiale, elle ne fait que reproduire les forces structurant le territoire. Ainsi, un fort taux de criminalité, dans un secteur géographique donné, peut se traduire par une baisse des valeurs immobilières non seulement du secteur en question, mais également des secteurs adjacents. De la même façon, le niveau du revenu moyen des ménages d’un secteur d’analyse peut être relié à celui des ménages des secteurs immédiatement voisins, ce qui ne fait que traduire le souci d’une certaine homogénéité des clientèles relatives aux divers sous-marchés résidentiels.
L’autocorrélation spatiale est responsable d’une portion non négligeable du pouvoir explicatif des modèles multivariés d’évaluation, ce qui met en évidence le rôle prépondérant qu’exercent les influences de voisinage sur les valeurs résidentielles. La mauvaise spécification du modèle constitue une autre cause fréquente d’autocorrélation : ainsi, l’omission d’une variable explicative importante, elle-même autocorrélée, tout comme l’adoption d’une forme fonctionnelle incorrecte, pour décrire la relation entre la variable dépendante et les variables indépendantes, se répercuteront au niveau des erreurs, lesquelles deviennent, de ce fait, autocorrélées. En présence d’une forte autocorrélation, les coefficients de régression ne sont plus efficaces et les tests de signification statistique deviennent, par conséquent, invalides. C’est par l’analyse des résidus, qui sont des estimations des erreurs, qu’il est possible d’obtenir sur ces dernières quelques informations. Alors que l’autocorrélation temporelle, propre aux modèles en coupe transversale, peut être notamment détectée par le test Durbin-Watson (D-W)1, la détection et le traitement de l’autocorrélation spatiale est plus complexe et implique le recours à des procédures des statistiques spatiales, telles que l’analyse par surface de tendance et le krigeage » permettant de capter les phénomènes de structuration de l’espace et de les réinsérer dans l’analyse de régression sous forme de variables ou de facteurs explicatifs2. Il importe, toutefois, de signaler que le recours à de telles procédures, indispensable dans les modèles d’analyse urbaine élaborés au niveau régional, n’est pas nécessaire dans le cas des modèles d’évaluation se limitant, en général, à des territoires beaucoup plus restreints.

Représentativité de l’échantillon

La dernière condition d’application de la régression linéaire multiple requiert que l’échantillon de transactions, servant à construire le modèle d’évaluation, soit représentatif de l’univers des unités d’évaluation auquel il est destiné. Il n’est pas possible, par exemple, d’appliquer à des propriétés âgées les résultats d’un modèle construit exclusivement sur la base de propriétés neuves; ou à des propriétés de type « cottage », les paramètres obtenus à partir d’un échantillon composé uniquement de « bungalows ». Ce point met en relief l’importance de la procédure d’échantillonnage discutée plus loin. L’une des façons de s’assurer de la représentativité de l’échantillon est de comparer, à l’aide des statistiques descriptives (moyenne, écart type, distributions de fréquences, etc.), le profil des unités transigées le composant à celui des immeubles non transigés de l’univers d’application du modèle statistique. Cela n’est évidemment possible que dans la mesure où il existe une description détaillée de chacune des unités d’évaluation composant le parc résidentiel visé par l’exercice de modélisation. Il sera possible alors de vérifier que le profil type des propriétés de l’échantillon reproduit fidèlement celui du parc cible. En outre, il est prudent de générer, outre l’échantillon principal, un sous-échantillon contrôle de transactions qui ne sont pas utilisées dans l’analyse de régression, mais serviront à valider le modèle final et à en vérifier la robustesse (voir le point 3.8.2 de ce chapitre). Le modèle est considéré comme étant robuste si les résultats qu’il produit, sur les immeubles de ce sous-échantillon, sont conformes à sa performance prédictive théorique.

FORCES ET LIMITES DE LA MÉTHODE DE RÉGRESSION LINÉAIRE MULTIPLE

L’analyse de régression constitue un outil d’analyse puissant et performant. En dépit de la complexité apparente des procédures statistiques qu’implique son utilisation, l’abondance des logiciels micro-informatiques existant sur le marché permet à quiconque veut s’en donner la peine de recourir à cette approche et d’obtenir, même en s’en tenant aux aspects les plus élémentaires de la technique, des résultats très satisfaisants. L’analyse de régression présente également certaines limites. Les avantages et les limites de la méthode se résument comme suit :

  • elle peut établir dans quelle mesure les fluctuations d’une variable dépendante (Y) sont associées à celles d’une ou de plusieurs variables indépendantes (Xi) et décrire cette relation par le biais de l’équation de régression;
  • appliquée à la problématique de l’évaluation foncière, elle permet d’établir la contribution marginale de chaque attribut résidentiel à la valeur réelle d’une unité d’évaluation et de reconstituer cette valeur à partir des caractéristiques de l’unité d’évaluation;
  • du fait qu’elle repose sur la théorie des probabilités, elle bénéficie d’une batterie de tests statistiques permettant d’établir à la fois la performance globale d’un modèle, aux plans tant explicatif que prédictif, et la fiabilité des coefficients individuels relatifs à chaque variable;
  • elle permet une lecture directe et nuancée des marchés et sous-marchés immobiliers assurant l’objectivité et la cohérence des valeurs obtenues ainsi que l’équité des rôles d’évaluation;
  • l’approche par modélisation statistique, couramment utilisée aux États-Unis depuis plus de deux décennies pour la modélisation des valeurs immobilières et la confection des rôles d’évaluation, repose sur des bases théoriques et méthodologiques très solides et très bien documentées qui ont, depuis longtemps, acquis leurs lettres de noblesse;
  • la versatilité de la méthode et la robustesse des résultats obtenus expliquent sa popularité croissante dans plusieurs provinces canadiennes, notamment en Saskatchewan et en Alberta, ainsi qu’en Europe et en Asie. L’énorme potentiel d’intégration entre l’approche statistique et les SIG (Systèmes d’information géographique) ne fait qu’en accentuer les avantages1;
  • À cet égard, voir : Roberto A. Figueroa, Modeling the Value of Location in Regina Using GIS and Spatial Autocorrelation Statistics, Assessment Journal, Nov.-Dec. 1999, p. 29-37.
  • en contrepartie, les analyses de régression et de corrélation ne s’appliquent qu’à des échantillons de taille relativement grande;
  • ces procédures d’inférence statistique n’impliquent a priori aucune relation de cause à effet entre les variables et demeurent essentiellement des outils d’aide à la décision ne pouvant servir de substitut au jugement de l’analyste, à sa bonne connaissance du marché local et à l’étude qualitative des faits;
  • enfin, la qualité des résultats ne peut être meilleure que celle des données utilisées.

3.1 INTRODUCTION
3.2 APPROCHE STATISTIQUE APPLIQUÉE À L’ÉVALUATION DE MASSE
3.3 APPROCHE DE LA MODÉLISATION STATISTIQUE EN ÉVALUATION FONCIÈRE
3.4 RÉGRESSION LINÉAIRE : QUELQUES PRINCIPES FONDAMENTAUX
3.5 PROCÉDURE D’ÉLABORATION D’UN MODÈLE STATISTIQUE
3.6 ÉTAPE 1 : DÉFINITION DES OBJECTIFS DE LA MODÉLISATION ET APPROCHE ANALYTIQUE
3.7 ÉTAPE 2 : CHOIX ET DESCRIPTION DU SECTEUR D’ANALYSE ET NATURE DE L’ÉCHANTILLON
3.8 ÉTAPE 3 : COLLECTE DE L’INFORMATION ET DÉFINITION DES VARIABLES
3.9 ÉTAPE 4 : DESCRIPTION ET ANALYSE DE LA BASE DE DONNÉES
3.10 ÉTAPE 5 : ANALYSE DE CORRÉLATION
3.11 ÉTAPE 6 : ANALYSE DE RÉGRESSION
3.12 ÉTAPE 7 : ANALYSE DES RÉSIDUS
3.13 ÉTAPE 8 : MISE AU POINT DU MODÈLE FINAL
3.14 ÉTAPE 9 : VALIDATION DU MODÈLE FINAL
3.15 ÉTAPE 10 : PRODUCTION D’INDICATIONS DE LA VALEUR
ANNEXE

Cours gratuitTélécharger le cours complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *