rozierguillaume / covidtracker-tools

MIT License
105 stars 78 forks source link

Limites & précisions concernant la méthode calculatoire de CoviRisque #357

Open Teskann opened 2 years ago

Teskann commented 2 years ago

Bonjour, je tiens à signaler un manque de précision concernant la méthode de l'outil CoviRisque (partie Comment ça marche ?).

Vous y affirmez que chaque personne a une probabilité p de porter le virus. Votre méthode suppose que les événements A est contaminé et B est contaminé sont indépendants pour tout A != B, d'où vous en tirez la formule P(personne n'est contaminé) = (1-p)^n.

Or, on peut aisément supposer que ce postulat de l'indépendance n'est pas respecté en pratique. En effet, si vous vous rendez à un événement de 50 personnes, certains invités se seront fréquentés en amont : vous n'invitez pas des personnes sélectionnées aléatoirement dans la population française. Ainsi, si vous invitez A et B, que A est positif et que A et B se fréquentent régulièrement, P(B contaminé | A contaminé) > p car B est cas contact de A.

Je reprends votre exemple de 4 personnes qui se rencontrent. Imaginons que sur ces 4 personnes, vous avez deux couples. On peut faire l'hypothèse que si l'un est malade, l'autre le sera aussi avec une très forte probabilité (disons 1 pour simplifier). Ainsi, P(A malade | B malade) ≈ 1 > p et P(A non malade | B non malade) ≈ 1 > 1-p. En considérant que B est en couple avec A et D en couple avec C, la formule donnant la probabilité que personne ne soit malade se simplifie en P(A non malade) * P(C non malade) = (1-p)² > (1-p)⁴. La probabilité qu'au moins une personne soit malade est alors 1 - (1-p)² < 1 - (1-p)⁴. Évidemment, cet exemple est caricatural, mais je comptais vous montrer que votre méthode surestime les risques dans ce cas. Votre simulateur sous-estimerait les risques dans les cas où P(A malade | B malade) < P(A malade), autrement dit, que le fait que quelqu'un soit contaminé diminue les chances que l'autre le soit. Je n'ai pas l'imagination nécessaire pour trouver de telles situations, mais peut-être qu'elles existent.

On peut de plus supposer que les personnes malades avec de forts symptômes ne se rendront pas à de tels événements, ce qui surestimerait encore les risques.

Vous me direz à juste titre que tout cela est incalculable en pratique. Mais je pense qu'il serait honnête de mentionner que le fait que chaque personne ait une probabilité p d'être infectée est une hypothèse. On pourrait également ajouter que cette estimation du risque n'est pertinente que si l'on tire les invités au hasard dans la population.

Pour parfaire la justesse des estimations, on pourrait ajouter des champs pour entrer le nombre de couples invités, de membres partageant un même foyer, ... et y associer une probabilité que l'un contamine l'autre (ex 0,9 pour les couples, 0,4 pour les frères et soeurs, ...) si des données officielles existent à ce sujet.

Voilà pour les limites que j'ai trouvé à cet outil. Je précise que je ne suis ni statisticien ni spécialiste des probabilités. Merci pour ce projet et sa transparence.

Lien des formules utilisées