Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire

martindaniel4 commented 9 years ago

@dataforgoodfr/datagooders tout l'enjeu est de parvenir à une liste priorisée des zones / centres pour lesquels il advient de mobiliser des bénévoles.

E.g :

Liste priorisée pour le mois de Juin 2015:

centre U2A	indice de priorité
U901	0.98
U452	0.75
U634	0.6
...	....

L'indice de priorité est un indice synthétique indiquant la demande réelle en besoin de distribution alimentaire.

Etant donné que nous ne disposons que de ce qui a été effectivement distribué, l'enjeu est de déterminer le meilleur proxy pouvant expliquer le besoin en aide alimentaire.

Cette liste peut s'affiner ensuite par mois, par types de produits (en fonction des stocks Croix Rouge etc..)

A plus long terme, cela peut s'intégrer avec des données issues de la grande distribution.

martindaniel4 commented 9 years ago

@RomainWarlop @c-o @samronsin @d4gvince @lefko2000 @ssoulier preneur de vos inputs là dessus. C'est le nerf du projet.

d4gvince commented 9 years ago

Une première approche ne consisterait-elle pas simplement à étudier les corrélations entre l'indice de priorité du centre et la vingtaine de variables explicatives des données carroyées de l'INSEE sur les carreaux environnant ? http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=donnees-carroyees&page=donnees-detaillees/donnees-carroyees/donnees-carroyees-200m.htm

martindaniel4 commented 9 years ago

@d4gvince si carrément faut faire quelque chose comme ça - http://ants.builders/blog/18-02-2014/predicting-abstention-rate-using-open-data.html

On a récupéré déjà pas mal de données ici - https://github.com/dataforgoodfr/croixrouge/blob/master/data/INSEE/data.md

@dataforgoodfr/datagooders vous en pensez quoi ?

c-o commented 9 years ago

tout à fait @d4gvince, reste à déterminer l'indice de prio à "corréler". Soit on décide d'un indice à priori, Ex nb repas servis / population à moins de 25km Soit on fait un modèle pour prédire le nombre de repas distribués (ou plutot nombre unique de personnes venant dans le centre), et l'indice de priorisation provient alors de la déviance par rapport à la prédiction. Plus instable (faudra surtout pas overfitter) mais plus généralisable y compris à des zones non couvertes par CRF aujourd'hui.

c-o commented 9 years ago

ce que j'ai dit juste avant ne marchera pas directement: le modèle apprendrait uniquement la relation nombre_repas = f(population) : plus il y a du monde plus il y a de repas... et ne prendra pas de signal à partir des données sur les revenus & co il faudra bien normaliser pour empêcher le modèle de capturer le mauvais signal... avec 2 soucis : la normalisation rajoute toujours de la variance, et la taille fait bien partit des critères de priorisation ! mais bon je pense que ça s'investigue tout de même.

martindaniel4 commented 9 years ago

@c-o @d4gvince @lefko2000 @RomainWarlop @samronsin et si on commençait simple avec la variable à prédire qui est la présence / absence d'un centre de distribution (en prenant CRF, Restos du coeur etc..)

On pourrait introduire les volumes distribués dans un second temps ?

c-o commented 9 years ago

pourquoi pas oui, je voyais plutôt un modèle basé uniquement sur les lieux où il y a un centre, mais ça peut marcher aussi comme ça. par contre ça fait un jeu de donnée bien asymétrique (36K zones INSEE au total, ~1K avec des centres CRF ou RC), faudrait gérer ça. @d4gvince @lefko2000 @RomainWarlop @samronsin vous en pensez quoi vous?

d4gvince commented 9 years ago

On pourrait regarder la distance au centre le plus proche, plutôt qu'un simple booléen présence/absence de centre dans la commune. Mais dans un cas comme dans l'autre, on risque de constater qu'il y a d'abord et avant tout des centres de distributions... la où il y a des habitants...

martindaniel4 commented 9 years ago

@d4gvince essayons !

Si tu compares l'implantation entre Paris et Marseille y a une grande différence, alors que ce sont les deux premières villes en nombre d'habitants

capture d ecran 2015-05-29 a 14 50 10

capture d ecran 2015-05-29 a 14 50 33

samronsin commented 9 years ago

@d4gvince très cool les données carroyées! 2010 ça date un peu, non? @martindaniel4 @c-o on aurait un moyen de choper quelque chose d'à la fois fin géographiquement (commune / carreaux) et récent?

comme premier proxy, je propose de prendre la distance totale (aspect géographique) que tous les chômeurs (aspect demande) d'une commune doivent parcourir pour arriver à un centre. on peut le faire par étapes:

si centre dans commune distance = 0, sinon distance = 1 (~ variable dichotomique proposée par @martindaniel4, pondérée par le chômage)
faire le calcul sous l'hypothèse d'une répartition homogène de la population sur la commune
affiner la répartition géographique des chômeurs (typiquement avec des données carroyées)

un truc qui va nous manquer c'est l'implantation d'associations "indépendantes". @martindaniel4 moyen de choper des données là-dessus?

martindaniel4 commented 9 years ago

@samronsin j'ai regardé je crois que le plus récent est de 2010. Ca doit coûter tellement cher à collecter, m'étonnerait qu'ils le fassent tous les ans.

Très cool cette première approche.

Je suis en contact avec le réseau FSE waste. Ils doivent sûrement avoir une idée des assoces locales je vais regarder.

@samronsin t'es chaud pour qu'on présente ça au prochain meetup, histoire qu'on se mette une deadline ? Je suis à Paris à partir de jeudi, on peut avancer dessus.

@dataforgoodfr/datagooders vous en pensez quoi ? D'autres idées ?

samronsin commented 9 years ago

@martindaniel4 OK, donc on se base sur les données 2010 pour cette première approche! Cool pour FSE waste et yes pour avancer là-dessus -- je ne serai probablement pas à Paris le 30 juin, mais quelqu'un d'autre pourra présenter...

dataforgoodfr / croixrouge

Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire #33