Relecture H.Mathian - Githubissues

lnmath commented 6 months ago

Remarques générales

Article très complet et très important qui permet de valoriser une méthode qui n’est plus récente et est sans doute sous utilisée, car s’appuyant sur des méthodes de stat inférentielles.
Globalement il est très pédagogique, ce qui est très appréciable. Je n’ai relevé que quelques passages qui mériteraient d’être éclaircis en particulier l’illustration de la dépendance et de l’hétérogénéité spatiale. Cela permettrait dès l’introduction de bien poser le problème. Cela pourrait aussi faire référence à ce que certains appelle les effets spatiaux de 1er ordre (site) ou de 2è ordre (situation) (cf O'Sullivan, D. and Unwin, D.J. (2010). Geographic Information Analysis. John Wiley, Hoboken, NJ. )

Dans le même ordre, je pense qu’il faut faire attention à bien suivre le fil de la GWR, sans s’écarter vers les modèles de régressions spatiales qui peuvent introduire de l’ambiguïté pour des lecteur/trices non spécialistes de ces méthodes.

Autre remarque générale: l’article est long et parfois teste plusieurs procédures qui éloignent un peu du fil conducteur de la méthode. Est-ce qu’un schéma dans l’intro des différentes étapes qui conduisent d’un ML à la GWR et qui constitue le plan de l’article n’aiderait pas ? Dans la partie « au fil de l’article « je fais des suggestions pour mettre des parties en annexe.
La biblio pourrait être étoffée un poil, notamment avec des articles faisant des ouvertures méthodologiques comme celui de Comber et al. De 2023

Comber, A., Brunsdon, C., Charlton, M., Dong, G., Harris, R., Lu, B., Lü, Y., Murakami, D., Nakaya, T., Wang, Y. and Harris, P. (2023), A Route Map for Successful Applications of Geographically Weighted Regression. Geogr Anal, 55: 155-178. (https://doi.org/10.1111/gean.12316) Ou encore avec le très bon chapitre ( !!) qui présente une application très similaire avec les données des DVF, avec une même démarche pédgogique Mohamed Hilal, Julie Le Gallo. Carte et modèle statistique pour explorer l'hétérogénéité spatiale. Claire Cunty; Hélène Mathian. Traitements et cartographie de l’information géographique, ISTE Group, pp.147-188, 2023, 1789481619, 9781789481617. ⟨hal-04241143⟩

Enfin je pose la question de fond qui interroge la forme du modèle: vous ne justifiez pas l'utilisation du "prix médian" et non" log(prix médian)"

Remarques générales sur la forme :

Limiter l’usage de « nos » (nos VI , nos VD, nos résultats…par exemple)
Privilégier les termes génériques stats (exemple : les coefficients plutôt que les « bétas »
Quitte à mettre des titres aux graphiques , faire en sorte qu’ils soient très explicites. Je fais quelques propositions par la suite.

Au fil de l’article J’ai souvent repris le texte initial, soit que je commente, soit pour lequel j’ai une interrogation, soit que je propose de modifier. Je n’ai pas trié les remarques selon ces catégories, elles sont au fil de l’article. Je n'interviens pas sur la forme du code, uniquement sur le texte.

Pourquoi la GWR ? –

2e§, l1

« aussi appeler » -> aussi appelée

« Lorsque l’on s’intéresse à un phénomène social avec une emprise sur un espace » pas très clair – « observé sur une maille territoriale «

« sans effet de structure a priori des VI ou de la VD » à expliciter

« En effet, les caractéristiques propres de chaque territoire (l’unicité de chaque lieu) impliquent que l’effet constaté en un lieu n’est pas forcément valable en un autre lieu de l’espace. » cette partie là n’est pas très claire – peut être reprendre le terme de « structure » pour expliciter le fait que les données sont ici structurées, par des relations de proximité (effet de situation) et des hétérogénéités propres aux lieux qui proviennent de caractéristiques « geographiques » diverses (ressources, topographies…) (effet de site) qui fait que les unités étudiées ne peuvent être envisagées comme indépendante et identiquement distribuées.

« les modèles de régression linéaires » pb d’accord

1 Présentation et préparation des données

Est-ce que il n’y a as à dire plus sur le choix des EPCI comme maille d’observation- Nombre? et une justification thématique d’homogénéité intra , ou de tailles (superficie)?

Il manque une petite justification du choix de la variable « prix médian » qui concerne tous types d’habitation (maison , appartement)

table de correspondance des noms et libellés de variables : Spécifier l’année des données à nouveau

Carte des prix médian : il semble que la distribution ne soit pas du tout « normale » ni « uniforme » et de ce fait on ne voit pas les différenciation de la dernière classe . Les 5 premières classes sont quasiment d’amplitude égales. Une discrétisation plus grossière des premières classes et plus fine des dernières classe permettrait de mieux cerner les différenciations des métropoles et de certains littoraux.

2- Création du voisinage

Figure 2.8 : C’est bizarre de renvoyer au manuel INSEE uniquement pour cette figure qui est utilisée partout et depuis Clif and Ord je pense ! (cf Spatial autocorrelation)

« Heureusement » à enlever ?

Carte du graphe de voisinage : On ne voit rien à cause me semble -t-il de cercles aux centres des EPCI ?

Carte de vérification sur la zone « 1 » cette figure d’après serait plus illustrative si elle reprenait les liens entre un EPCI et ses voisin contigus

3 Approche statistique “classique”

Expliciter le passage au log pour les histogrammes, alors que le 1er histogramme n’est pas en log

« Quand 2 variables covarient, un écart à la moyenne d’une variable est accompagné par un écart dans le même sens (corrélation positive) ou dans le sens opposé de l’autre (corrélation négative) pour le même individu de l’autre variable. Dit autrement, lorsque deux variables covarient, pour chaque valeur qui s’écarte de la moyenne, on s’attend à trouver un écart à la moyenne pour l’autre variable. » n’est pas clair du tout – A mon avis à éliminer ou alors à reformuler de manière très claire – on peut imaginer que c’est un pré-requis

« Par exemple, elle est négativement corrélée avec le pourcentage de logements vacants. » rajouter peut-être la valeur et parler de significativité

« qui corrèlent trop fortement » => qui sont trop fortement corrélés

Graphique de la matrice des corrélations - Choisir la représentation avec les nuages de points qui permet aussi de tester visuellement la « linéarité » des nuages.( PerformanceAnalytics ::chart.correlation)

Pourquoi utilisez-vous le prix médian et pas le log ? Il aurait fallu tester les représentations. En tous cas il faut le justifier, car c’est en général le log du prix qui est utilisé. Les relations que vous présentez avant laissent l’imaginer, et cela aurait des implications sur les résultats.

« Dans notre cas on peut dire que la part d’agriculteurs, de cadres et professions intellectuelles dans le nombre d’emplois n’ont pas un effet significatif sur le prix médian du logement. Nous allons tout de même conserver ces variables qui pourtant devraient être considérées comme non significatives ; les modèles de GWR utilisés par la suite montreront l’utilité de telles variables, dont l’intérêt aurait pu être rejeté a priori. » Il faudrait bien spécifier « à l’échelle de l’ensemble des ECPI en France » 1er$ et rajouter au 2è que cela peut varier localement, d’où la GWR. Idem dans l’encadré « rouge »

§3.4.3 - 3è Condition concernant les résidus : => rajouter « spatialement autocorrélés » et globalement rajouter "spatial" dès qu’il s’agit d’autocorrélation (titre 3.44 et à l’intérieur du §),

Apparté => aparté

3.4.5 – cartographie des résidus : Partie très spécifique, qui pourrait être raccourcie (en enlevant l’automatisation qui pourrait être mise en annexe, s’il est possible de mettre des annexes…)

« Sur cette carte on voit très clairement une spatialisation des résidus, sans même faire les tests nous aurions pu voir que la dimension spatiale jouait bien un rôle » il faut donner quelques exemples illustratifs 1- de leur autocorrélation spatiale (effet situation) et 2- de leur localisation (effet de site) littoral / IDF/ contraste Pyrénées/Alpes par exemple)

4- Autocorrélation spatiale

Je ne comprends pas « Moran est une agrégation locale » Geary est construit sur le rapport de la variance locale sur la variance globale et Moran est le rapport de la covariance locale sur la variance globale En revanche , on peut décomposer Moran pour construire un indice local (Anselin) La comparaison des 2 calculs aussi alourdi le texte : ce pourrait être mis en annexe.

carte- Attention à évoquer la question des effets de bord (carte des LISA)

5- GWR

Le paragraphe introduisant les modèles de régressions spatiales à ce niveau là me parait trop décalé par rapport au reste de l’article en termes de connaissance nécessaire pour le comprendre. La figure (qui n’est pas numérotée, ni appelée) est trop complexe me semble -t-il. Les paramètres qui permettent de suivre le cheminement ne sont pas introduits hormis dans la légende). La lecture de cette figure nécessite donc des prérequis largement supérieurs à ce qui était nécessaire jusque là, où le lecteur/lectrice était très accompagné·e. Ici sont décrits des modèles qui servent plutôt à gérer la dépendance spatiale alors que le GWR est plutôt là pour gérer l’hétérogénéité spatiale. Et par ailleurs, la GWR n’est pas dans ce schéma…. Donc ? L’aboutissement à la la GWR est attendu depuis l’introduction, donc je pense que cette partie de l’introduction vient plutôt perturber la lecture.

Pour l’explicitation d’acronymes de termes stat (ex : AIC) c’est bien de mettre l’expression anglaise (d’où provient l’acronyme, puis l’expression française)

« Le modèle avec une forme qui a été définie au format gaussien explique un meilleur R2 et le score d’AIC est plus faible. » il me semble que ce genre de phrase est dure à comprendre et présente des ambiguïtés. Elle peut être améliorée : « Le modèle utilisant un noyau gaussien à un meilleur pouvoir explicatif (R2) et un meilleur score de qualité (AIC) »

Interprétation des premiers résultats : L’illustration de la lecture doit être reprise, car elle n’est pas juste (cf densité de population). Le tableau donne les quartiles associés à la distribution des coefficients locaux pour chacune des variables. Dans l’exemple -411 est la valeur min d’un coefficient et non des prix. Par ailleurs , là il est intéressant de pointer que selon le lieu la densité de population peut avoir un effet négatif ou positif .

« Commençons par une étude des résidus afin de vérifier que cette fois ils n’ont pas de structure apparente. » Spécifier « structure spatiale »

Résidus GWR

« Cette carte ne présente pas de structure spatiale marquée et nous amène à penser que nous avons expliqué l’ensemble des phénomènes spatiaux liés aux questions de prix de l’immobilier. » Pourquoi ne pas le tester ? Bizarre de ne proposer qu’une analyse visuelle , alors que les tests ont été présentés précédemment.

Etude des coefficients : Les coefficients représentés sont ils standardisés ? Cela ne permettrait-il pas de mieux comparer les cartes ?

« Carte des variables contribuant le plus par epci »
Quitte à mettre un titre, autant mettre un titre explicite « Carte des variables contribuant le plus « localement » à l’explication de la variabilité des prix médian par epci »

« Nombre de Betas significatifs par EPCI (t-value) » Idem « Nombre de variables expliquant significativement la variabilité des prix médians » par EPCI (t-value)

Par ailleurs les 2 cartes p-value et t-value sont logiquement équivalentes – il faut en enlever une des 2.

Conclusion-

C’est bien de remettre ici les régressions spatiales, mais aussi ouvrir aux extensions « A Route Map for Successful Applications of Geographically Weighted Regression, (Comber & al. ) 2023

Et je ne mettrai pas la MTA au même niveau, qui est dans une perspective « descriptive » et essentiellement basée sur des comparaisons de comportements selon des voisinages territoriaux et/ou spatiaux.

phraid29 commented 1 month ago

"Globalement il est très pédagogique, ce qui est très appréciable. Je n’ai relevé que quelques passages qui mériteraient d’être éclaircis en particulier l’illustration de la dépendance et de l’hétérogénéité spatiale. Cela permettrait dès l’introduction de bien poser le problème. Cela pourrait aussi faire référence à ce que certains appelle les effets spatiaux de 1er ordre (site) ou de 2è ordre (situation) (cf O'Sullivan, D. and Unwin, D.J. (2010). Geographic Information Analysis. John Wiley, Hoboken, NJ.)" L'introduction ne nous paraissait pas le meilleur endroit pour entrer dans ce niveau de détail. Nous avions uniquement précisé les écueils liés à la dépendance statistique des individus dès l'introduction ; nous détaillons par la suite, dans le 4., ce problème d'effets spatiaux de 1er ordre et de 2e ordre. Nous les avions nommés différemment, en raison du grand nombre de dénominations existantes en statistique pour désigner ces problèmes. Nous avons toutefois ajouté la référence proposée et expliqué ces différentes dénominations.

phraid29 commented 1 month ago

"Dans le même ordre, je pense qu’il faut faire attention à bien suivre le fil de la GWR, sans s’écarter vers les modèles de régressions spatiales qui peuvent introduire de l’ambiguïté pour des lecteur/trices non spécialistes de ces méthodes." Le paragraphe détaillant les méthodes de régression spatiale a été enlevé.
"Autre remarque générale: l’article est long et parfois teste plusieurs procédures qui éloignent un peu du fil conducteur de la méthode. Est-ce qu’un schéma dans l’intro des différentes étapes qui conduisent d’un ML à la GWR et qui constitue le plan de l’article n’aiderait pas ? Dans la partie « au fil de l’article « je fais des suggestions pour mettre des parties en annexe." Un schéma a été ajouté en annexe, qui résume la logique globale des démarches en statistiques spatiales. Le fil de l'article, spécifiquement, a été mis en couleur pour plus de clarté.

La référence bibliographique à Comber et al. a été ajoutée. Elle permet en effet de faire une ouverture méthodologique en conclusion.

"Enfin je pose la question de fond qui interroge la forme du modèle: vous ne justifiez pas l'utilisation du "prix médian" et non" log(prix médian)" Une explication a été apportée dans l'introduction du point 1. Il s'agit d'un positionnement théorique de recherche. Ici, le choix a été fait de conserver la structure statistique initiale de nos données, sans transformation pour deux raisons :

- Le passage au logarithme amoindrit le poids des valeurs extrêmes fortes. Cette transformation aurait donc pour conséquence de réduire le poids de paris dans la compréhension de la spatialisation des prix de l'immobilier. Or, Paris joue un rôle prépondérant dans ce phénomène. Il influence directement toute la couronne parisienne, mais également les métropoles reliées directement à Paris en transport ferré à grande vitesse, et les communes alentours de ces métropoles, et donc pas voie de conséquence, quasiment l'ensemble du territoire national.
- L'interprétation des coefficients ne peut plus se faire directement et complexifie la compréhension de nos résultats. Nous avons standardisé nos variables pour permettre de comparer nos coefficients et pouvoir interpréter les grandeurs qu'ils représentent. Le passage au logarithme empêche cette interprétation directe.

rzine-reviews / GWR_Rzine

Relecture H.Mathian #10