Closed bowni closed 2 years ago
Tentative grouping of the above items into coherent evaluation elements:
Collecte et assemblage de données
Nettoyage et complétion des données
Autre
Addressed in PR #173 (except item D1 above, to be regrouped in another issue for 2022 H1)
List of topics to study to improve/complement the existing eval elements and answer items:
[D] Data prep
D1- Décrire les modalités de train-test-split et les intégrer à la carte d’identité du modèle
D2- Lorsque des collectes de données sont mises en place, se prémunir contre les risques de poisoning attack
D3- Dans la préparation des données, renforcer l’attention portée aux labels : comment ont-ils été générés ? quel niveau de certitude / fiabilité / qualité ? qui en sont les auteurs ? Ils doivent être cohérents avec le domaine d’utilisation, les objectifs du modèle
D4- Dans les cas de figure où il est nécessaire de compléter des valeurs manquantes dans les datasets, quelle méthode est utilisée ?
D5- Décrire la méthode gestion des données erronées / atypiques et l'intégrer à la carte d'identité des modèles
D6- Prêter attention à ce que les datasets contiennent des samples d’événements rares
D7- Lorsque collecte de données, attention au biais de captation, i.e. si les capteurs ne sont pas identiques ; particulièrement entre données de test et données d’usage réel