LuanaMartelli / BlueArk2019

0 stars 0 forks source link

Préparer les données #5

Open julienrf opened 4 years ago

julienrf commented 4 years ago

Pour l’instant, nous avons seulement nettoyé et rendu utilisable les données de la prise d’eau de Tsijore. Il faudrait vérifier qu’on arrive à faire la même chose (avec la même performance) sur d’autres sources. Et au passage, vérifier que le nettoyage des données peut se faire sans intervention humaine.

Il faudra pour cela utiliser les sources de données que nous n’avions pas utilisées lors du challenge.

neveue commented 4 years ago

On peut appeler cette partie "pre-processing" ou préparation des données. Les tests des modèles sur ces nouvelles données peuvent être fait séparément.

Du coup, je crois qu'il faut adapter le script déjà existant et vérifier que cela fonctionne bien sur toutes les données qu'on a. Est-ce qu'en plus on écrit une petite liste de toutes les étapes (au moins pour nous en interne) et on fournit une estimation du temps de calcul? Je pense à un jour pour ça

LuanaMartelli commented 4 years ago

J'oublie peut-être des étapes :

  1. Adapter le script de pyhton2 à python3
  2. Traiter les données de toutes les sources (NaN, 0, valeurs négatives)
  3. Tester
  4. Valider les résultats Un jour ça me paraît bien aussi
LuanaMartelli commented 4 years ago

J'ajoute @neveue @benjamingaudin pour les parties tests / validations