yaf / renoncer-demain

https://yaf.github.io/renoncer-demain/
2 stars 0 forks source link

Réponse sur la gestion des données #1

Open robinparisi opened 3 years ago

robinparisi commented 3 years ago

Hello Yannick,

Je suis le créateur de mes choix. J'ai vu en tombant sur ce post : https://framapiaf.org/@yaf/105351651282576567 que la gestion des données inquiétait donc je me permets de faire quelques précisions ici.

L'adresse email est utilisée pour valider les données, c'est expliqué dans la FAQ : https://mes-choix.fr/a-propos Le but est de pouvoir affiner les réponses et de permettre l'édition par les participant·e·s sans avoir besoin de mettre en place un système de compte (il suffit de remplir de nouveau le formulaire, de valider, et la participation est mise à jour). Je travaille sur ce projet (et d'autres à venir) sur mon temps libre et ceux-ci en particulier n'ont pas vocation à devenir des projets commerciaux. Je propose éventuellement de cocher une case lors du sondage ou il est indiqué "Cela m'intéresse de recevoir des e-mails sur ce projet et les prochains à venir...", le but de ces projets à visée écologique étant de toucher un maximum de monde, c'est aussi un moyen pour moi de garder le contact (la case est bien entendu décochée par défaut).

Concernant l'hébergement, avec Netlify et FaunaDB, c'est un choix de ma part pour disposer d'un environnement de déploiement continu efficace, sans avoir à gérer la couche système et ne pas avoir à gérer les problèmes de montée en charge.

Pour info, j'ai beaucoup travaillé sur ce questionnaire, car au final la partie la plus complexe n'était pas forcément le code, mais bien de trouver un questionnaire équilibré pour les différentes problématiques environnementales. Je trouve ça dommage de ne pas avoir été contacté directement pour pouvoir apporter des précisions sachant que j'ai déjà pris en compte un maximum de retours jusqu'à maintenant. Le projet venant d'être lancé, j'ai rédigé une politique de confidentialité et une FAQ, mais je suis d’accord que je peux améliorer cet aspect, il me faut juste du temps.

Pour ce qui est de la politique de confidentialité et la conservation des données, le but est de pouvoir étudier un jeu de données suffisamment grand, donc oui, ça n'est pas pertinent de conserver les réponses uniquement quelques mois, mais encore une fois, je ne récupère rien de personnel en dehors de l'adresse email qui sera anonymisée (voir plus bas) assez rapidement et j'ajouterai un système de suppression de la participation par la suite (pour éviter d'avoir à me contacter directement). Au final, le but est simplement de pouvoir calculer cette page en fonction des critères (âge, rapport à l'écologie, lieu d'habitation, etc) : https://mes-choix.fr/results

Je dois finaliser le projet et nettoyer un peu le code, mais j'ai prévu de rendre disponible le tout en Open Source d'ici la fin du mois (ça sera sur Github malheureusement, et pas sur une alternative libre comme Gitlab, mais j'espère que ça fera l'affaire 😉). J'ai prévu notamment d'ajouter un hash + sel sur l'adresse email (pour toutes les personnes qui ne souhaitent pas avoir d'autres infos, mais juste participer) ce qui me permettra de conserver le système de vérification + mise à jour sans avoir besoin de conserver l'adresse email en clair.

Je n'ai pas accès à Framapiaf, donc si jamais d'autres se posent des questions, pas de soucis pour en discuter ici.

yaf commented 3 years ago

Merci d'avoir pris le temps d'apporter des éclaircissements.

Et tu as raison sur un point : j'aurais pu te contacter pour avoir plus d'info. Je pense que j'ai eu plus envie de bricoler un truc sans email que d'avoir des éclaircissements.

Comme évoqué avec des amies dans le partage que j'ai fait sur Facebook (sic), ce qui est intéressant dans ce questionnaire, c'est de se retrouver face à sois même. Je ne vois pas trop de que tu comptes faire des résultats obtenu.

Et puisque j'ai du mal à voir l'objectif, j'ai du mal à avoir la justification de prendre un email. Est-ce qu'il y a vraiment du monde qui viens souhaite faire des mises à jour ? Est-ce que c'est un soucis si une personne répond plusieurs fois ?

Pour l'hébergement, je ne connais pas FaunaDB, mais un rapide coup d'œil à leur site et je ne trouve pas d'élément vis à vis de la privacy. Que font-ils des données ? Avec qui sont-elles partagé ? Qui va voir mon email du coup ?

Merci d'avoir fait ce questionnaire. Je l'ai rempli, j'ai donnée mon email, j'ai partagé le lien. Je trouve que c'est intéressant, non pas de participer à l'analyse, mais comme dit plus haut, à se questionner. Je pense que la récolte de l'email n'est pas nécessaire. Le stockage de données non plus presque :thinking:

Je ne sais pas trop ce que je vais faire de ce repo. C'est une forme d'exercice pour moi. Si jamais tu souhaites discuter plus en avant de vie privée, je ne suis pas un grand spécialiste, mais je suis prêt à en parler avec toi et trouver des solutions pour être plus respectueux. Voir, pourquoi pas coder avec toi si ça peut t'aider.

robinparisi commented 3 years ago

Je vais essayer de répondre à tout, pour commencer avec le mail : il agit comme un identifiant unique. Ça n'a pas vocation à être un projet de recherche, mais j'essaie d'avoir un jeu de données "propres". En laissant le formulaire ouvert à n'importe quel robot ou personne qui souhaiterait venir faire n'importe quoi, les résultats perdaient de l'intérêt.

Comme précisé, le mail reçu après le sondage me permet de vérifier les réponses grâce à un mécanisme de validation classique (comme l'activation d'un compte sur n'importe quel site en cliquant sur le lien reçu dans l'email). Après, effectivement, si la personne n'a pas coché la case pour recevoir des informations, je n'ai pas besoin de garder l'email en clair, mais je dois tout de même garder un identifiant unique (d'où le but de passer le tout dans une fonction de hachage quand j'aurai un peu de temps pour coder ça).

Pourquoi un identifiant unique ? Sans lui, je ne pourrai pas empêcher une personne de répondre plusieurs fois de suite que ce soit volontairement ou par erreur, ce qui sera dommageable pour les résultats. J'ai par exemple été contacté par des personnes qui me disaient que je n'étais pas assez rigoureux dans le protocole pour éviter ce genre de cas, encore une fois, mon but n'est pas de remplacer un institut de sondage, mais de me situer quelque part entre les deux. Ensuite, j'ai plusieurs personnes qui m'ont demandé pour éditer leurs réponses, soit parce qu'elles avaient fait une erreur, ou qu'elles avaient changé d'avis sur certaines propositions : j'ai reçu près de 400 réponses aujourd'hui, donc je préfère que tout soit automatisé 😅

Le système actuel permet une mise à jour simple, et permettra aussi de supprimer sa participation si on le souhaite. Sans identifiant unique comme l'adresse email, tout cela devient impossible et le jeu de données s'avère moins "clean". Alors ça n'est pas le système parfait, mais au moins j'évite les reCAPTCHA et connexion via les réseaux sociaux ce qui me va très bien car beaucoup plus intrusif selon moi.

Pour le côté intéressant de se retrouver face à soit même, je peux comprendre, mais quand j'ai eu l'idée de l'outil, c'était justement pour faire l'exact opposé. J'aimerais que l'on puisse se poser collectivement des questions sur la société dans laquelle on évolue, et essayer de réfléchir à ce qui est vraiment utile au quotidien au vu de l'urgence climatique. Bien entendu, personne n'aura le même positionnement, mais c'est ça qui est passionnant au final. De manière générale, j'ai eu beaucoup de retours ou les gens étaient contents de pouvoir se comparer aux résultats, et ils s'amusaient même à le remplir entre amis pour voir ce qui changeait. Certain·e·s ont même décidé de prendre de nouvelles résolutions en voyant ce qui se faisait déjà dans leur entourage ou dans les résultats 😃 D'où le but de proposer à terme des résultats basés sur les critères comme la tranche d'âge, le métier, etc, et aussi pour éviter l'effet de "bulle" (toutes les premières réponses avaient par exemple un rapport à l'écologie "très impliqué", ce qu'il va falloir que j'essaie d'équilibrer).

J'avoue avoir plus de mal à comprendre le cas que tu décris. Si on veut remplir l'outil pour soi-même, on peut simplement faire la première partie sans aller jusqu'au bout, mais de mon point de vue, le projet perd de son intérêt (par contre c'est possible dès maintenant). À terme, mon but est de rendre le projet disponible en Open Data via une petite API ou quelque chose dans le genre (sans le champ email qui sera haché bien entendu), pour que les gens puissent s'emparer des données et faire des infographies ou tout autre type de projets.

Pour Fauna, ça relève plus du positionnement de chacun sur la vie privée. Les conditions sont disponibles sur leur site, je dois effectivement rajouter ce prestataire dans ma politique de confidentialité, mais ça reste un outil cloud donc si on y est "allergique", c'est sûr que c'est compliqué (ce que je peux comprendre). Ma philosophie personnelle là-dessus, c'est que je fais attention aux outils que je sélectionne, mais j'essaie aussi de choisir des outils qui me permettent de mener à bien mes projets sans y passer trop de temps et me concentrer sur l'essentiel : s'il existe un équivalent serverless alternatif en prenant en compte les avantages de l'ensemble de la stack de Netlify + FaunaDB, qui serait plus respectueux de la vie privée ou hebergé en France, je suis preneur. Enfin, ici, on parle bien d'un fournisseur de BDD cloud, ça n'est pas le même type de business model qu'un Analytics qui peut extraire des données pour faire du profilage. Après, on peut douter de la sécurité de Fauna mais perso j'ai déjà donné avec de l'auto hébergement et je n'ai plus le temps pour ça (je préfère l'allouer aux projets).

Pour l'aide sur le code, comme énoncé précédemment, le dépôt est déjà sur Github en privé pour le moment, et j'ai prévu de le passer en public rapidement après un petit clean. Ça veut dire que le projet sera ouvert aux améliorations via pull-request.

Voilà, j'espère que ça répond au moins à quelques questions à ce sujet.

yaf commented 3 years ago

Merci pour ton projet, et pour le temps que tu as pris pour apporter des précisions sur tes intentions.

Je pense que ce n'est pas suffisant pour des personnes sensible à la vie privée qui du coup ne participeront pas (c'est les retours que j'ai eu sur mastodon). Et vu le nombre de personne qui ont malgré tout rempli avec email (dont moi), je pense que c'est pas très grave pour ton projet, juste un biais de plus :smile:

Ce que j'ai fait ici, je l'ai fait en réaction aux messages masto, et pour m'amuser aussi un peu je pense.

Je vais supprimer les textes d'ailleurs, ce sont les tiens, et je ne les aient pas forcement lu :D

Amuse toi bien, et peut-être à plus tard.