rzine-reviews / GWR_Rzine

0 stars 0 forks source link

Relecture H.Mathian #10

Open lnmath opened 6 months ago

lnmath commented 6 months ago

Remarques générales

Dans le même ordre, je pense qu’il faut faire attention à bien suivre le fil de la GWR, sans s’écarter vers les modèles de régressions spatiales qui peuvent introduire de l’ambiguïté pour des lecteur/trices non spécialistes de ces méthodes.

Comber, A., Brunsdon, C., Charlton, M., Dong, G., Harris, R., Lu, B., Lü, Y., Murakami, D., Nakaya, T., Wang, Y. and Harris, P. (2023), A Route Map for Successful Applications of Geographically Weighted Regression. Geogr Anal, 55: 155-178. (https://doi.org/10.1111/gean.12316) Ou encore avec le très bon chapitre ( !!) qui présente une application très similaire avec les données des DVF, avec une même démarche pédgogique Mohamed Hilal, Julie Le Gallo. Carte et modèle statistique pour explorer l'hétérogénéité spatiale. Claire Cunty; Hélène Mathian. Traitements et cartographie de l’information géographique, ISTE Group, pp.147-188, 2023, 1789481619, 9781789481617. ⟨hal-04241143⟩

Remarques générales sur la forme :


Au fil de l’article J’ai souvent repris le texte initial, soit que je commente, soit pour lequel j’ai une interrogation, soit que je propose de modifier. Je n’ai pas trié les remarques selon ces catégories, elles sont au fil de l’article. Je n'interviens pas sur la forme du code, uniquement sur le texte.

2e§, l1

« aussi appeler » -> aussi appelée

« Lorsque l’on s’intéresse à un phénomène social avec une emprise sur un espace » pas très clair – « observé sur une maille territoriale «

« sans effet de structure a priori des VI ou de la VD » à expliciter

« En effet, les caractéristiques propres de chaque territoire (l’unicité de chaque lieu) impliquent que l’effet constaté en un lieu n’est pas forcément valable en un autre lieu de l’espace. » cette partie là n’est pas très claire – peut être reprendre le terme de « structure » pour expliciter le fait que les données sont ici structurées, par des relations de proximité (effet de situation) et des hétérogénéités propres aux lieux qui proviennent de caractéristiques « geographiques » diverses (ressources, topographies…) (effet de site) qui fait que les unités étudiées ne peuvent être envisagées comme indépendante et identiquement distribuées.

« les modèles de régression linéaires » pb d’accord

Est-ce que il n’y a as à dire plus sur le choix des EPCI comme maille d’observation- Nombre? et une justification thématique d’homogénéité intra , ou de tailles (superficie)?

Il manque une petite justification du choix de la variable « prix médian » qui concerne tous types d’habitation (maison , appartement)

table de correspondance des noms et libellés de variables : Spécifier l’année des données à nouveau

Carte des prix médian : il semble que la distribution ne soit pas du tout « normale » ni « uniforme » et de ce fait on ne voit pas les différenciation de la dernière classe . Les 5 premières classes sont quasiment d’amplitude égales. Une discrétisation plus grossière des premières classes et plus fine des dernières classe permettrait de mieux cerner les différenciations des métropoles et de certains littoraux.

Figure 2.8 : C’est bizarre de renvoyer au manuel INSEE uniquement pour cette figure qui est utilisée partout et depuis Clif and Ord je pense ! (cf Spatial autocorrelation)

« Heureusement » à enlever ?

Carte du graphe de voisinage : On ne voit rien à cause me semble -t-il de cercles aux centres des EPCI ?

Carte de vérification sur la zone « 1 » cette figure d’après serait plus illustrative si elle reprenait les liens entre un EPCI et ses voisin contigus

Expliciter le passage au log pour les histogrammes, alors que le 1er histogramme n’est pas en log

« Quand 2 variables covarient, un écart à la moyenne d’une variable est accompagné par un écart dans le même sens (corrélation positive) ou dans le sens opposé de l’autre (corrélation négative) pour le même individu de l’autre variable. Dit autrement, lorsque deux variables covarient, pour chaque valeur qui s’écarte de la moyenne, on s’attend à trouver un écart à la moyenne pour l’autre variable. » n’est pas clair du tout – A mon avis à éliminer ou alors à reformuler de manière très claire – on peut imaginer que c’est un pré-requis

« Par exemple, elle est négativement corrélée avec le pourcentage de logements vacants. » rajouter peut-être la valeur et parler de significativité

« qui corrèlent trop fortement » => qui sont trop fortement corrélés

Graphique de la matrice des corrélations - Choisir la représentation avec les nuages de points qui permet aussi de tester visuellement la « linéarité » des nuages.( PerformanceAnalytics ::chart.correlation)

Pourquoi utilisez-vous le prix médian et pas le log ? Il aurait fallu tester les représentations. En tous cas il faut le justifier, car c’est en général le log du prix qui est utilisé. Les relations que vous présentez avant laissent l’imaginer, et cela aurait des implications sur les résultats.

« Dans notre cas on peut dire que la part d’agriculteurs, de cadres et professions intellectuelles dans le nombre d’emplois n’ont pas un effet significatif sur le prix médian du logement. Nous allons tout de même conserver ces variables qui pourtant devraient être considérées comme non significatives ; les modèles de GWR utilisés par la suite montreront l’utilité de telles variables, dont l’intérêt aurait pu être rejeté a priori. » Il faudrait bien spécifier « à l’échelle de l’ensemble des ECPI en France » 1er$ et rajouter au 2è que cela peut varier localement, d’où la GWR. Idem dans l’encadré « rouge »

§3.4.3 - 3è Condition concernant les résidus : => rajouter « spatialement autocorrélés » et globalement rajouter "spatial" dès qu’il s’agit d’autocorrélation (titre 3.44 et à l’intérieur du §),

Apparté => aparté

3.4.5 – cartographie des résidus : Partie très spécifique, qui pourrait être raccourcie (en enlevant l’automatisation qui pourrait être mise en annexe, s’il est possible de mettre des annexes…)

« Sur cette carte on voit très clairement une spatialisation des résidus, sans même faire les tests nous aurions pu voir que la dimension spatiale jouait bien un rôle » il faut donner quelques exemples illustratifs 1- de leur autocorrélation spatiale (effet situation) et 2- de leur localisation (effet de site) littoral / IDF/ contraste Pyrénées/Alpes par exemple)

Je ne comprends pas « Moran est une agrégation locale » Geary est construit sur le rapport de la variance locale sur la variance globale et Moran est le rapport de la covariance locale sur la variance globale En revanche , on peut décomposer Moran pour construire un indice local (Anselin) La comparaison des 2 calculs aussi alourdi le texte : ce pourrait être mis en annexe.

carte- Attention à évoquer la question des effets de bord (carte des LISA)

Le paragraphe introduisant les modèles de régressions spatiales à ce niveau là me parait trop décalé par rapport au reste de l’article en termes de connaissance nécessaire pour le comprendre. La figure (qui n’est pas numérotée, ni appelée) est trop complexe me semble -t-il. Les paramètres qui permettent de suivre le cheminement ne sont pas introduits hormis dans la légende). La lecture de cette figure nécessite donc des prérequis largement supérieurs à ce qui était nécessaire jusque là, où le lecteur/lectrice était très accompagné·e. Ici sont décrits des modèles qui servent plutôt à gérer la dépendance spatiale alors que le GWR est plutôt là pour gérer l’hétérogénéité spatiale. Et par ailleurs, la GWR n’est pas dans ce schéma…. Donc ? L’aboutissement à la la GWR est attendu depuis l’introduction, donc je pense que cette partie de l’introduction vient plutôt perturber la lecture.

Pour l’explicitation d’acronymes de termes stat (ex : AIC) c’est bien de mettre l’expression anglaise (d’où provient l’acronyme, puis l’expression française)

« Le modèle avec une forme qui a été définie au format gaussien explique un meilleur R2 et le score d’AIC est plus faible. » il me semble que ce genre de phrase est dure à comprendre et présente des ambiguïtés. Elle peut être améliorée : « Le modèle utilisant un noyau gaussien à un meilleur pouvoir explicatif (R2) et un meilleur score de qualité (AIC) »

Interprétation des premiers résultats : L’illustration de la lecture doit être reprise, car elle n’est pas juste (cf densité de population). Le tableau donne les quartiles associés à la distribution des coefficients locaux pour chacune des variables. Dans l’exemple -411 est la valeur min d’un coefficient et non des prix. Par ailleurs , là il est intéressant de pointer que selon le lieu la densité de population peut avoir un effet négatif ou positif .

« Commençons par une étude des résidus afin de vérifier que cette fois ils n’ont pas de structure apparente. » Spécifier « structure spatiale »

Résidus GWR

« Cette carte ne présente pas de structure spatiale marquée et nous amène à penser que nous avons expliqué l’ensemble des phénomènes spatiaux liés aux questions de prix de l’immobilier. » Pourquoi ne pas le tester ? Bizarre de ne proposer qu’une analyse visuelle , alors que les tests ont été présentés précédemment.

Etude des coefficients : Les coefficients représentés sont ils standardisés ? Cela ne permettrait-il pas de mieux comparer les cartes ?

« Carte des variables contribuant le plus par epci »
Quitte à mettre un titre, autant mettre un titre explicite « Carte des variables contribuant le plus « localement » à l’explication de la variabilité des prix médian par epci »

« Nombre de Betas significatifs par EPCI (t-value) » Idem « Nombre de variables expliquant significativement la variabilité des prix médians » par EPCI (t-value)

Par ailleurs les 2 cartes p-value et t-value sont logiquement équivalentes – il faut en enlever une des 2.

C’est bien de remettre ici les régressions spatiales, mais aussi ouvrir aux extensions « A Route Map for Successful Applications of Geographically Weighted Regression, (Comber & al. ) 2023

Et je ne mettrai pas la MTA au même niveau, qui est dans une perspective « descriptive » et essentiellement basée sur des comparaisons de comportements selon des voisinages territoriaux et/ou spatiaux.

phraid29 commented 1 month ago
phraid29 commented 1 month ago

La référence bibliographique à Comber et al. a été ajoutée. Elle permet en effet de faire une ouverture méthodologique en conclusion.

"Enfin je pose la question de fond qui interroge la forme du modèle: vous ne justifiez pas l'utilisation du "prix médian" et non" log(prix médian)" Une explication a été apportée dans l'introduction du point 1. Il s'agit d'un positionnement théorique de recherche. Ici, le choix a été fait de conserver la structure statistique initiale de nos données, sans transformation pour deux raisons :