Relecture T. Feuillet - Githubissues

tfeuillet commented 11 months ago

La fiche est très riche et semble tout à fait en mesure de pouvoir servir de support utile pour quiconque souhaiterait se lancer dans l'estimation de modèles GWR en R. Les auteurs ont pris le soin de bien développer les enjeux et les spécificités de cette méthode, sans se suffire d'une démonstration seulement analytique. Les illustrations sont nombreuses et pertinentes. Je fais ci-dessous un certain nombre de suggestions visant à améliorer l'ensemble, en particulier en ce qui concerne la structure d'ensemble et les aspects statistiques.

Remarques générales

Le document est très complet, mais il gagnerait à être raccourci. Il y a presque trois fiches dans la fiche : une sur la régression linéaire, une sur l'autocorrélation spatiale, et la dernière sur la GWR. Je suggère de diminuer significativement la partie sur la multicolinéarité (définir et préciser les VIFs, mais sans montrer toutes les étapes préalables de sélection des variables, c'est inutile ici), ainsi que celle sur l'autocorrélation spatiale, en particulier les LISA (qui pourrait constituer une autre fiche ?). De même, je suggère de supprimer l'évocation des régressions spatiales en début de partie 5, il s'agit d'un autre sujet.
Il est d'usage en modélisation des transactions immobilières de transformer la variable dépendante en logarithme, puisque la distribution des prix est toujours asymétrique à droite. Je suggère aux auteurs d'appliquer cette transformation, ou de justifier de ne pas le faire. Le passage en modèle log-linéaire (ou log-log si des transformations sont également réalisées sur les variables indépendantes) pourrait avoir des conséquences sur les élasticités. Autre détail en lien avec cette variable dépendante : dans la partie 3.1 (et partout dans la fiche), dans le texte et le graphique, il faut préciser qu'il s'agit du prix médian au m².
Globalement, le texte manque de références tirées de la littérature scientifique. L'ouvrage de référence de Fotherigham et al (2002) pourrait être cité, de même que le papier associé au package GWmodel (https://www.tandfonline.com/doi/full/10.1080/10095020.2014.917453). L'article récent de Comber et al (2023) est également éclairant sur la démarche d'analyses GWR (https://onlinelibrary.wiley.com/doi/full/10.1111/gean.12316). Il existe aussi plusieurs applications de la GWR en modélisation hédonique, qui pourraient être citées (exemples ici et ici). Enfin, une mention de la ressource Rzine sur la GWR rédigée à l'occasion du SIGR 2021 serait appropriée étant donné les convergences avec la présente fiche : https://sigr2021.github.io/gwr/

Remarques spécifiques

La notion de non-stationnarité spatiale pourrait être mieux définie en introduction, car elle est centrale pour le reste de la démonstration. Elle correspond précisément à l'hétérogénéité spatiale des paramètres statistiques, dont les covariances, c'est-à-dire les relations statistiques. Dans le reste du document, à chaque fois qu'il est fait mention de non-stationnarité, il faudrait préciser "spatiale".
A propos des trois conditions à valider pour la régression linéaire : préciser que ces conditions permettent de s'assurer d'estimateurs non biaisés. Plus que le nombre de VI, c'est leur multicolinéarité qui pose le plus de problème (et les hypothèses de Gauss-Markov sont par ailleurs plus nombreuses).
Cette phrase : "L’absence de corrélation entre les variables explicatives du modèle et les variables externes. En effet, les variables d’influence doivent être incluses dans le modèle (sauf dans le cas où cela induirait une trop grande multicolinéarité)." est à reformuler.
L'interprétation des coefficients locaux dans la partie 5.4, en relation avec les quartiles, est incorrecte : si le coefficient associé à la densité de population est de -- 411 dans une unité spatiale, cela ne signifie pas que le prix médian au m² y est à son minimum. Il s'agit des quartiles des coefficients, pas de la variable dépendante. Rien n'indique que l'EPCI dans lequel le coefficient est de -- 411 ait des prix immobiliers bas.
Dans la partie 5.4, les deux cartes sur le nombre de betas significatifs sont redondantes et nécessairement identiques, puisque la p-value est inversement proportionnelle à la t-value.
Les deux pistes d'amélioration évoquées en conclusion ont déjà été explorées dans la littérature : la GWR lasso (https://journals.sagepub.com/doi/10.1068/a40256) pour le premier point, et la GWR multiscalaire (https://www.tandfonline.com/doi/abs/10.1080/24694452.2017.1352480) pour le second.

phraid29 commented 5 months ago

"Il est d'usage en modélisation des transactions immobilières de transformer la variable dépendante en logarithme, puisque la distribution des prix est toujours asymétrique à droite. Je suggère aux auteurs d'appliquer cette transformation, ou de justifier de ne pas le faire. Le passage en modèle log-linéaire (ou log-log si des transformations sont également réalisées sur les variables indépendantes) pourrait avoir des conséquences sur les élasticités. Autre détail en lien avec cette variable dépendante : dans la partie 3.1 (et partout dans la fiche), dans le texte et le graphique, il faut préciser qu'il s'agit du prix médian au m²."

Une explication a été apportée dans l'introduction du point 1. Il s'agit d'un positionnement théorique de recherche. Ici, le choix a été fait de conserver la structure statistique initiale de nos données, sans transformation pour deux raisons :

    Le passage au logarithme amoindrit le poids des valeurs extrêmes fortes. Cette transformation aurait donc pour conséquence de réduire le poids de paris dans la compréhension de la spatialisation des prix de l'immobilier. Or, Paris joue un rôle prépondérant dans ce phénomène. Il influence directement toute la couronne parisienne, mais également les métropoles reliées directement à Paris en transport ferré à grande vitesse, et les communes alentours de ces métropoles, et donc pas voie de conséquence, quasiment l'ensemble du territoire national.
    L'interprétation des coefficients ne peut plus se faire directement et complexifie la compréhension de nos résultats. Nous avons standardisé nos variables pour permettre de comparer nos coefficients et pouvoir interpréter les grandeurs qu'ils représentent. Le passage au logarithme empêche cette interprétation directe.

phraid29 commented 5 months ago

"Globalement, le texte manque de références tirées de la littérature scientifique. L'ouvrage de référence de Fotherigham et al (2002) pourrait être cité, de même que le papier associé au package GWmodel (https://www.tandfonline.com/doi/full/10.1080/10095020.2014.917453). L'article récent de Comber et al (2023) est également éclairant sur la démarche d'analyses GWR (https://onlinelibrary.wiley.com/doi/full/10.1111/gean.12316). Il existe aussi plusieurs applications de la GWR en modélisation hédonique, qui pourraient être citées (exemples ici et ici). Enfin, une mention de la ressource Rzine sur la GWR rédigée à l'occasion du SIGR 2021 serait appropriée étant donné les convergences avec la présente fiche : https://sigr2021.github.io/gwr/"

Des références ont été ajoutées.

LeCampionG commented 5 months ago

"Le document est très complet, mais il gagnerait à être raccourci. Il y a presque trois fiches dans la fiche : une sur la régression linéaire, une sur l'autocorrélation spatiale, et la dernière sur la GWR. Je suggère de diminuer significativement la partie sur la multicolinéarité (définir et préciser les VIFs, mais sans montrer toutes les étapes préalables de sélection des variables, c'est inutile ici), ainsi que celle sur l'autocorrélation spatiale, en particulier les LISA (qui pourrait constituer une autre fiche ?). De même, je suggère de supprimer l'évocation des régressions spatiales en début de partie 5, il s'agit d'un autre sujet."

En effet, nous reconnaissons la densité de l'article. Nous avons suivi la recommandation de supprimer l'évocation des régressions spatiales qui sont effectivement un autre sujet et qui pourrait amener de la confusion.

En revanche il nous a semblé important de malgré tout de conserver la partie sur la régression "classique" et la partie diagnostic du modèle. En effet, il nous semble important de ne pas déconnecter la GWR des méthodes classiques et non spatiales. L'idée était aussi de montrer comment la GWR peut répondre à l'impossibilité de réaliser une régression standard. De même pour la partie sur l'autocorrelation cela nous semble important de la conserver, car malgré tout elle aide à la compréhension du phénomène étudié dans ce cas et donc à l'interprétation de la GWR. Elle permet aussi d'évoquer légérement la dépendance spatiale dont il est égalemnt important de parler.