etalab-ia / DGML

This repo contains the code used to develop DGML (Data Gouv for Machine Learning), a data repository of datasets from data.gouv.fr for Machine Learning.
https://datascience.etalab.studio/dgml/
MIT License
12 stars 0 forks source link

DGML (Data Gouv pour le Machine Learning)

en

Le projet DGML vise à la construction d'un catalogue de jeux de données de data.gouv.fr pour le Machine Learning.

:link: datascience.etalab.studio/dgml/

Objectifs

Parmi le grand nombre de données ouvertes disponibles sur data.gouv.fr, il peut s'avérer difficile de trouver rapidement des jeux de données réutilisables par des algorithmes de ML et de déterminer si elles seraient adaptées à cette tâche. Dans DGML, vous pouvez rapidement séléctionner un jeu de données de data.gouv.fr pour le Machine Learning et avoir un aperçu rapide des informations utiles pour faire du Machine Learning sur ce jeu de données.

Ce que vous trouvez dans DGML

Pour chaque jeux de données vous trouvez:

Comment utiliser ce repo en local

  1. Cloner/Forker le repo (plus d'info ici)
  2. Une fois dans le repo, installer les requirements à partir du fichier requirements.txt:
    • Avec pip: pip install -r requirements.txt
    • Avec conda:conda env create --name envname --file=environment.yml
      1. Activer l'environnement

Pour lancer l'application, depuis votre ligne de commande, à la racine:

cd openml_app

python main.py

Libraries utilisées