LabeliaLabs / referentiel-evaluation-dsrc

Référentiel d'évaluation data science responsable et de confiance
https://www.labelia.org/fr/datascience
Other
69 stars 8 forks source link

Improvements and additions to data prep elements #149

Closed bowni closed 2 years ago

bowni commented 3 years ago

List of topics to study to improve/complement the existing eval elements and answer items:

[D] Data prep

D1- Décrire les modalités de train-test-split et les intégrer à la carte d’identité du modèle

D2- Lorsque des collectes de données sont mises en place, se prémunir contre les risques de poisoning attack

D3- Dans la préparation des données, renforcer l’attention portée aux labels : comment ont-ils été générés ? quel niveau de certitude / fiabilité / qualité ? qui en sont les auteurs ? Ils doivent être cohérents avec le domaine d’utilisation, les objectifs du modèle

D4- Dans les cas de figure où il est nécessaire de compléter des valeurs manquantes dans les datasets, quelle méthode est utilisée ?

D5- Décrire la méthode gestion des données erronées / atypiques et l'intégrer à la carte d'identité des modèles

D6- Prêter attention à ce que les datasets contiennent des samples d’événements rares

D7- Lorsque collecte de données, attention au biais de captation, i.e. si les capteurs ne sont pas identiques ; particulièrement entre données de test et données d’usage réel

bowni commented 2 years ago

Tentative grouping of the above items into coherent evaluation elements:

  1. Collecte et assemblage de données

    • D7- Lorsque collecte de données, attention au biais de captation, i.e. si les capteurs ne sont pas identiques ; particulièrement entre données de test et données d’usage réel
    • D6- Prêter attention à ce que les datasets contiennent des samples d’événements rares
    • D2- Lorsque des collectes de données sont mises en place, se prémunir contre les risques de poisoning attack
    • D3- Dans la préparation des données, renforcer l’attention portée aux labels : comment ont-ils été générés ? quel niveau de certitude / fiabilité / qualité ? qui en sont les auteurs ? Ils doivent être cohérents avec le domaine d’utilisation, les objectifs du modèle
  2. Nettoyage et complétion des données

    • D4- Dans les cas de figure où il est nécessaire de compléter des valeurs manquantes dans les datasets, quelle méthode est utilisée ?
    • D5- Décrire la méthode gestion des données erronées / atypiques et l'intégrer à la carte d'identité des modèles
  3. Autre

    • D1- Décrire les modalités de train-test-split et les intégrer à la carte d’identité du modèle
bowni commented 2 years ago

Addressed in PR #173 (except item D1 above, to be regrouped in another issue for 2022 H1)