Open tfeuillet opened 11 months ago
"Il est d'usage en modélisation des transactions immobilières de transformer la variable dépendante en logarithme, puisque la distribution des prix est toujours asymétrique à droite. Je suggère aux auteurs d'appliquer cette transformation, ou de justifier de ne pas le faire. Le passage en modèle log-linéaire (ou log-log si des transformations sont également réalisées sur les variables indépendantes) pourrait avoir des conséquences sur les élasticités. Autre détail en lien avec cette variable dépendante : dans la partie 3.1 (et partout dans la fiche), dans le texte et le graphique, il faut préciser qu'il s'agit du prix médian au m²."
Une explication a été apportée dans l'introduction du point 1. Il s'agit d'un positionnement théorique de recherche. Ici, le choix a été fait de conserver la structure statistique initiale de nos données, sans transformation pour deux raisons :
Le passage au logarithme amoindrit le poids des valeurs extrêmes fortes. Cette transformation aurait donc pour conséquence de réduire le poids de paris dans la compréhension de la spatialisation des prix de l'immobilier. Or, Paris joue un rôle prépondérant dans ce phénomène. Il influence directement toute la couronne parisienne, mais également les métropoles reliées directement à Paris en transport ferré à grande vitesse, et les communes alentours de ces métropoles, et donc pas voie de conséquence, quasiment l'ensemble du territoire national.
L'interprétation des coefficients ne peut plus se faire directement et complexifie la compréhension de nos résultats. Nous avons standardisé nos variables pour permettre de comparer nos coefficients et pouvoir interpréter les grandeurs qu'ils représentent. Le passage au logarithme empêche cette interprétation directe.
"Globalement, le texte manque de références tirées de la littérature scientifique. L'ouvrage de référence de Fotherigham et al (2002) pourrait être cité, de même que le papier associé au package GWmodel (https://www.tandfonline.com/doi/full/10.1080/10095020.2014.917453). L'article récent de Comber et al (2023) est également éclairant sur la démarche d'analyses GWR (https://onlinelibrary.wiley.com/doi/full/10.1111/gean.12316). Il existe aussi plusieurs applications de la GWR en modélisation hédonique, qui pourraient être citées (exemples ici et ici). Enfin, une mention de la ressource Rzine sur la GWR rédigée à l'occasion du SIGR 2021 serait appropriée étant donné les convergences avec la présente fiche : https://sigr2021.github.io/gwr/"
Des références ont été ajoutées.
"Le document est très complet, mais il gagnerait à être raccourci. Il y a presque trois fiches dans la fiche : une sur la régression linéaire, une sur l'autocorrélation spatiale, et la dernière sur la GWR. Je suggère de diminuer significativement la partie sur la multicolinéarité (définir et préciser les VIFs, mais sans montrer toutes les étapes préalables de sélection des variables, c'est inutile ici), ainsi que celle sur l'autocorrélation spatiale, en particulier les LISA (qui pourrait constituer une autre fiche ?). De même, je suggère de supprimer l'évocation des régressions spatiales en début de partie 5, il s'agit d'un autre sujet."
En effet, nous reconnaissons la densité de l'article. Nous avons suivi la recommandation de supprimer l'évocation des régressions spatiales qui sont effectivement un autre sujet et qui pourrait amener de la confusion.
En revanche il nous a semblé important de malgré tout de conserver la partie sur la régression "classique" et la partie diagnostic du modèle. En effet, il nous semble important de ne pas déconnecter la GWR des méthodes classiques et non spatiales. L'idée était aussi de montrer comment la GWR peut répondre à l'impossibilité de réaliser une régression standard. De même pour la partie sur l'autocorrelation cela nous semble important de la conserver, car malgré tout elle aide à la compréhension du phénomène étudié dans ce cas et donc à l'interprétation de la GWR. Elle permet aussi d'évoquer légérement la dépendance spatiale dont il est égalemnt important de parler.
La notion de non-stationnarité spatiale pourrait être mieux définie en introduction, car elle est centrale pour le reste de la démonstration. Elle correspond précisément à l'hétérogénéité spatiale des paramètres statistiques, dont les covariances, c'est-à-dire les relations statistiques. Dans le reste du document, à chaque fois qu'il est fait mention de non-stationnarité, il faudrait préciser "spatiale".
Le propos a été précisé en introduction
A propos des trois conditions à valider pour la régression linéaire : préciser que ces conditions permettent de s'assurer d'estimateurs non biaisés. Plus que le nombre de VI, c'est leur multicolinéarité qui pose le plus de problème (et les hypothèses de Gauss-Markov sont par ailleurs plus nombreuses).
La condition liée à la multicolinéarité a été ajoutée en introduction et le propos a été précisé.
Cette phrase : "L’absence de corrélation entre les variables explicatives du modèle et les variables externes. En effet, les variables d’influence doivent être incluses dans le modèle (sauf dans le cas où cela induirait une trop grande multicolinéarité)." est à reformuler.
La phrase a été modifiée pour la rendre plus claire.
L'interprétation des coefficients locaux dans la partie 5.4, en relation avec les quartiles, est incorrecte : si le coefficient associé à la densité de population est de -- 411 dans une unité spatiale, cela ne signifie pas que le prix médian au m² y est à son minimum. Il s'agit des quartiles des coefficients, pas de la variable dépendante. Rien n'indique que l'EPCI dans lequel le coefficient est de -- 411 ait des prix immobiliers bas.
En effet, cette erreur a été corrigée.
Dans la partie 5.4, les deux cartes sur le nombre de betas significatifs sont redondantes et nécessairement identiques, puisque la p-value est inversement proportionnelle à la t-value.
Effectivement, mais le but était pédagogique : il est de présenter également les p-values, qui peuvent être utilisées même quand le nombre d'individus est faible, même si dans le cas présent les résultats sont bien sûr les mêmes.
Les deux pistes d'amélioration évoquées en conclusion ont déjà été explorées dans la littérature : la GWR lasso (https://journals.sagepub.com/doi/10.1068/a40256) pour le premier point, et la GWR multiscalaire (https://www.tandfonline.com/doi/abs/10.1080/24694452.2017.1352480) pour le second.
La conclusion a été modifiée en ce sens.
La fiche est très riche et semble tout à fait en mesure de pouvoir servir de support utile pour quiconque souhaiterait se lancer dans l'estimation de modèles GWR en R. Les auteurs ont pris le soin de bien développer les enjeux et les spécificités de cette méthode, sans se suffire d'une démonstration seulement analytique. Les illustrations sont nombreuses et pertinentes. Je fais ci-dessous un certain nombre de suggestions visant à améliorer l'ensemble, en particulier en ce qui concerne la structure d'ensemble et les aspects statistiques.
Remarques générales
Remarques spécifiques