Open martindaniel4 opened 9 years ago
@RomainWarlop @c-o @samronsin @d4gvince @lefko2000 @ssoulier preneur de vos inputs là dessus. C'est le nerf du projet.
Une première approche ne consisterait-elle pas simplement à étudier les corrélations entre l'indice de priorité du centre et la vingtaine de variables explicatives des données carroyées de l'INSEE sur les carreaux environnant ? http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=donnees-carroyees&page=donnees-detaillees/donnees-carroyees/donnees-carroyees-200m.htm
@d4gvince si carrément faut faire quelque chose comme ça - http://ants.builders/blog/18-02-2014/predicting-abstention-rate-using-open-data.html
On a récupéré déjà pas mal de données ici - https://github.com/dataforgoodfr/croixrouge/blob/master/data/INSEE/data.md
@dataforgoodfr/datagooders vous en pensez quoi ?
tout à fait @d4gvince, reste à déterminer l'indice de prio à "corréler". Soit on décide d'un indice à priori, Ex nb repas servis / population à moins de 25km Soit on fait un modèle pour prédire le nombre de repas distribués (ou plutot nombre unique de personnes venant dans le centre), et l'indice de priorisation provient alors de la déviance par rapport à la prédiction. Plus instable (faudra surtout pas overfitter) mais plus généralisable y compris à des zones non couvertes par CRF aujourd'hui.
ce que j'ai dit juste avant ne marchera pas directement: le modèle apprendrait uniquement la relation nombre_repas = f(population) : plus il y a du monde plus il y a de repas... et ne prendra pas de signal à partir des données sur les revenus & co il faudra bien normaliser pour empêcher le modèle de capturer le mauvais signal... avec 2 soucis : la normalisation rajoute toujours de la variance, et la taille fait bien partit des critères de priorisation ! mais bon je pense que ça s'investigue tout de même.
@c-o @d4gvince @lefko2000 @RomainWarlop @samronsin et si on commençait simple avec la variable à prédire qui est la présence / absence d'un centre de distribution (en prenant CRF, Restos du coeur etc..)
On pourrait introduire les volumes distribués dans un second temps ?
pourquoi pas oui, je voyais plutôt un modèle basé uniquement sur les lieux où il y a un centre, mais ça peut marcher aussi comme ça. par contre ça fait un jeu de donnée bien asymétrique (36K zones INSEE au total, ~1K avec des centres CRF ou RC), faudrait gérer ça. @d4gvince @lefko2000 @RomainWarlop @samronsin vous en pensez quoi vous?
On pourrait regarder la distance au centre le plus proche, plutôt qu'un simple booléen présence/absence de centre dans la commune. Mais dans un cas comme dans l'autre, on risque de constater qu'il y a d'abord et avant tout des centres de distributions... la où il y a des habitants...
@d4gvince essayons !
Si tu compares l'implantation entre Paris et Marseille y a une grande différence, alors que ce sont les deux premières villes en nombre d'habitants
@d4gvince très cool les données carroyées! 2010 ça date un peu, non? @martindaniel4 @c-o on aurait un moyen de choper quelque chose d'à la fois fin géographiquement (commune / carreaux) et récent?
comme premier proxy, je propose de prendre la distance totale (aspect géographique) que tous les chômeurs (aspect demande) d'une commune doivent parcourir pour arriver à un centre. on peut le faire par étapes:
un truc qui va nous manquer c'est l'implantation d'associations "indépendantes". @martindaniel4 moyen de choper des données là-dessus?
@samronsin j'ai regardé je crois que le plus récent est de 2010. Ca doit coûter tellement cher à collecter, m'étonnerait qu'ils le fassent tous les ans.
Très cool cette première approche.
Je suis en contact avec le réseau FSE waste. Ils doivent sûrement avoir une idée des assoces locales je vais regarder.
@samronsin t'es chaud pour qu'on présente ça au prochain meetup, histoire qu'on se mette une deadline ? Je suis à Paris à partir de jeudi, on peut avancer dessus.
@dataforgoodfr/datagooders vous en pensez quoi ? D'autres idées ?
@martindaniel4 OK, donc on se base sur les données 2010 pour cette première approche! Cool pour FSE waste et yes pour avancer là-dessus -- je ne serai probablement pas à Paris le 30 juin, mais quelqu'un d'autre pourra présenter...
@dataforgoodfr/datagooders tout l'enjeu est de parvenir à une liste priorisée des zones / centres pour lesquels il advient de mobiliser des bénévoles.
E.g :
Liste priorisée pour le mois de
Juin 2015
:L'indice de priorité est un indice synthétique indiquant la demande réelle en besoin de distribution alimentaire.
Etant donné que nous ne disposons que de ce qui a été effectivement distribué, l'enjeu est de déterminer le meilleur proxy pouvant expliquer le besoin en aide alimentaire.
Cette liste peut s'affiner ensuite par mois, par types de produits (en fonction des stocks Croix Rouge etc..)
A plus long terme, cela peut s'intégrer avec des données issues de la grande distribution.