Open lnmath opened 6 months ago
"Dans le même ordre, je pense qu’il faut faire attention à bien suivre le fil de la GWR, sans s’écarter vers les modèles de régressions spatiales qui peuvent introduire de l’ambiguïté pour des lecteur/trices non spécialistes de ces méthodes." Le paragraphe détaillant les méthodes de régression spatiale a été enlevé.
"Autre remarque générale: l’article est long et parfois teste plusieurs procédures qui éloignent un peu du fil conducteur de la méthode. Est-ce qu’un schéma dans l’intro des différentes étapes qui conduisent d’un ML à la GWR et qui constitue le plan de l’article n’aiderait pas ? Dans la partie « au fil de l’article « je fais des suggestions pour mettre des parties en annexe." Un schéma a été ajouté en annexe, qui résume la logique globale des démarches en statistiques spatiales. Le fil de l'article, spécifiquement, a été mis en couleur pour plus de clarté.
La référence bibliographique à Comber et al. a été ajoutée. Elle permet en effet de faire une ouverture méthodologique en conclusion.
"Enfin je pose la question de fond qui interroge la forme du modèle: vous ne justifiez pas l'utilisation du "prix médian" et non" log(prix médian)" Une explication a été apportée dans l'introduction du point 1. Il s'agit d'un positionnement théorique de recherche. Ici, le choix a été fait de conserver la structure statistique initiale de nos données, sans transformation pour deux raisons :
Remarques générales
Article très complet et très important qui permet de valoriser une méthode qui n’est plus récente et est sans doute sous utilisée, car s’appuyant sur des méthodes de stat inférentielles.
Globalement il est très pédagogique, ce qui est très appréciable. Je n’ai relevé que quelques passages qui mériteraient d’être éclaircis en particulier l’illustration de la dépendance et de l’hétérogénéité spatiale. Cela permettrait dès l’introduction de bien poser le problème. Cela pourrait aussi faire référence à ce que certains appelle les effets spatiaux de 1er ordre (site) ou de 2è ordre (situation) (cf O'Sullivan, D. and Unwin, D.J. (2010). Geographic Information Analysis. John Wiley, Hoboken, NJ. )
Dans le même ordre, je pense qu’il faut faire attention à bien suivre le fil de la GWR, sans s’écarter vers les modèles de régressions spatiales qui peuvent introduire de l’ambiguïté pour des lecteur/trices non spécialistes de ces méthodes.
Autre remarque générale: l’article est long et parfois teste plusieurs procédures qui éloignent un peu du fil conducteur de la méthode. Est-ce qu’un schéma dans l’intro des différentes étapes qui conduisent d’un ML à la GWR et qui constitue le plan de l’article n’aiderait pas ? Dans la partie « au fil de l’article « je fais des suggestions pour mettre des parties en annexe.
La biblio pourrait être étoffée un poil, notamment avec des articles faisant des ouvertures méthodologiques comme celui de Comber et al. De 2023
Comber, A., Brunsdon, C., Charlton, M., Dong, G., Harris, R., Lu, B., Lü, Y., Murakami, D., Nakaya, T., Wang, Y. and Harris, P. (2023), A Route Map for Successful Applications of Geographically Weighted Regression. Geogr Anal, 55: 155-178. (https://doi.org/10.1111/gean.12316) Ou encore avec le très bon chapitre ( !!) qui présente une application très similaire avec les données des DVF, avec une même démarche pédgogique Mohamed Hilal, Julie Le Gallo. Carte et modèle statistique pour explorer l'hétérogénéité spatiale. Claire Cunty; Hélène Mathian. Traitements et cartographie de l’information géographique, ISTE Group, pp.147-188, 2023, 1789481619, 9781789481617. ⟨hal-04241143⟩
Remarques générales sur la forme :
Au fil de l’article J’ai souvent repris le texte initial, soit que je commente, soit pour lequel j’ai une interrogation, soit que je propose de modifier. Je n’ai pas trié les remarques selon ces catégories, elles sont au fil de l’article. Je n'interviens pas sur la forme du code, uniquement sur le texte.
2e§, l1
Est-ce que il n’y a as à dire plus sur le choix des EPCI comme maille d’observation- Nombre? et une justification thématique d’homogénéité intra , ou de tailles (superficie)?
Il manque une petite justification du choix de la variable « prix médian » qui concerne tous types d’habitation (maison , appartement)
table de correspondance des noms et libellés de variables : Spécifier l’année des données à nouveau
Carte des prix médian : il semble que la distribution ne soit pas du tout « normale » ni « uniforme » et de ce fait on ne voit pas les différenciation de la dernière classe . Les 5 premières classes sont quasiment d’amplitude égales. Une discrétisation plus grossière des premières classes et plus fine des dernières classe permettrait de mieux cerner les différenciations des métropoles et de certains littoraux.
Figure 2.8 : C’est bizarre de renvoyer au manuel INSEE uniquement pour cette figure qui est utilisée partout et depuis Clif and Ord je pense ! (cf Spatial autocorrelation)
Carte du graphe de voisinage : On ne voit rien à cause me semble -t-il de cercles aux centres des EPCI ?
Carte de vérification sur la zone « 1 » cette figure d’après serait plus illustrative si elle reprenait les liens entre un EPCI et ses voisin contigus
Expliciter le passage au log pour les histogrammes, alors que le 1er histogramme n’est pas en log
Graphique de la matrice des corrélations - Choisir la représentation avec les nuages de points qui permet aussi de tester visuellement la « linéarité » des nuages.( PerformanceAnalytics ::chart.correlation)
Pourquoi utilisez-vous le prix médian et pas le log ? Il aurait fallu tester les représentations. En tous cas il faut le justifier, car c’est en général le log du prix qui est utilisé. Les relations que vous présentez avant laissent l’imaginer, et cela aurait des implications sur les résultats.
§3.4.3 - 3è Condition concernant les résidus : => rajouter « spatialement autocorrélés » et globalement rajouter "spatial" dès qu’il s’agit d’autocorrélation (titre 3.44 et à l’intérieur du §),
3.4.5 – cartographie des résidus : Partie très spécifique, qui pourrait être raccourcie (en enlevant l’automatisation qui pourrait être mise en annexe, s’il est possible de mettre des annexes…)
Je ne comprends pas « Moran est une agrégation locale » Geary est construit sur le rapport de la variance locale sur la variance globale et Moran est le rapport de la covariance locale sur la variance globale En revanche , on peut décomposer Moran pour construire un indice local (Anselin) La comparaison des 2 calculs aussi alourdi le texte : ce pourrait être mis en annexe.
carte- Attention à évoquer la question des effets de bord (carte des LISA)
Le paragraphe introduisant les modèles de régressions spatiales à ce niveau là me parait trop décalé par rapport au reste de l’article en termes de connaissance nécessaire pour le comprendre. La figure (qui n’est pas numérotée, ni appelée) est trop complexe me semble -t-il. Les paramètres qui permettent de suivre le cheminement ne sont pas introduits hormis dans la légende). La lecture de cette figure nécessite donc des prérequis largement supérieurs à ce qui était nécessaire jusque là, où le lecteur/lectrice était très accompagné·e. Ici sont décrits des modèles qui servent plutôt à gérer la dépendance spatiale alors que le GWR est plutôt là pour gérer l’hétérogénéité spatiale. Et par ailleurs, la GWR n’est pas dans ce schéma…. Donc ? L’aboutissement à la la GWR est attendu depuis l’introduction, donc je pense que cette partie de l’introduction vient plutôt perturber la lecture.
Pour l’explicitation d’acronymes de termes stat (ex : AIC) c’est bien de mettre l’expression anglaise (d’où provient l’acronyme, puis l’expression française)
Interprétation des premiers résultats : L’illustration de la lecture doit être reprise, car elle n’est pas juste (cf densité de population). Le tableau donne les quartiles associés à la distribution des coefficients locaux pour chacune des variables. Dans l’exemple -411 est la valeur min d’un coefficient et non des prix. Par ailleurs , là il est intéressant de pointer que selon le lieu la densité de population peut avoir un effet négatif ou positif .
Résidus GWR
Etude des coefficients : Les coefficients représentés sont ils standardisés ? Cela ne permettrait-il pas de mieux comparer les cartes ?
Par ailleurs les 2 cartes p-value et t-value sont logiquement équivalentes – il faut en enlever une des 2.
C’est bien de remettre ici les régressions spatiales, mais aussi ouvrir aux extensions « A Route Map for Successful Applications of Geographically Weighted Regression, (Comber & al. ) 2023
Et je ne mettrai pas la MTA au même niveau, qui est dans une perspective « descriptive » et essentiellement basée sur des comparaisons de comportements selon des voisinages territoriaux et/ou spatiaux.