Improvements and additions to data prep elements

bowni commented 3 years ago

List of topics to study to improve/complement the existing eval elements and answer items:

[D] Data prep

D1- Décrire les modalités de train-test-split et les intégrer à la carte d’identité du modèle

D2- Lorsque des collectes de données sont mises en place, se prémunir contre les risques de poisoning attack

D3- Dans la préparation des données, renforcer l’attention portée aux labels : comment ont-ils été générés ? quel niveau de certitude / fiabilité / qualité ? qui en sont les auteurs ? Ils doivent être cohérents avec le domaine d’utilisation, les objectifs du modèle

D4- Dans les cas de figure où il est nécessaire de compléter des valeurs manquantes dans les datasets, quelle méthode est utilisée ?

D5- Décrire la méthode gestion des données erronées / atypiques et l'intégrer à la carte d'identité des modèles

D6- Prêter attention à ce que les datasets contiennent des samples d’événements rares

D7- Lorsque collecte de données, attention au biais de captation, i.e. si les capteurs ne sont pas identiques ; particulièrement entre données de test et données d’usage réel

bowni commented 2 years ago

Tentative grouping of the above items into coherent evaluation elements:

Collecte et assemblage de données
- D7- Lorsque collecte de données, attention au biais de captation, i.e. si les capteurs ne sont pas identiques ; particulièrement entre données de test et données d’usage réel
- D6- Prêter attention à ce que les datasets contiennent des samples d’événements rares
- D2- Lorsque des collectes de données sont mises en place, se prémunir contre les risques de poisoning attack
- D3- Dans la préparation des données, renforcer l’attention portée aux labels : comment ont-ils été générés ? quel niveau de certitude / fiabilité / qualité ? qui en sont les auteurs ? Ils doivent être cohérents avec le domaine d’utilisation, les objectifs du modèle
Nettoyage et complétion des données
- D4- Dans les cas de figure où il est nécessaire de compléter des valeurs manquantes dans les datasets, quelle méthode est utilisée ?
- D5- Décrire la méthode gestion des données erronées / atypiques et l'intégrer à la carte d'identité des modèles
Autre
- D1- Décrire les modalités de train-test-split et les intégrer à la carte d’identité du modèle

bowni commented 2 years ago

Addressed in PR #173 (except item D1 above, to be regrouped in another issue for 2022 H1)

LabeliaLabs / referentiel-evaluation-dsrc

Improvements and additions to data prep elements #149