Open billmetangmo opened 2 years ago
faire une différence entre les csv en utilisant https://github.com/simonw/csv-diff
ou plus puissant https://github.com/aswinkarthik/csvdiff
Use https://github.com/marketplace/actions/flat-data to download data from data.gouv.fr
Use feather as we don't need to update data manually: https://towardsdatascience.com/stop-using-csvs-for-storage-this-file-format-is-150-times-faster-158bd322074e et sauver les données brutes dans le code sous forme de Parquet https://towardsdatascience.com/csv-files-for-storage-no-thanks-theres-a-better-option-72c78a414d1d
On peut utiliser AWS Glue for Ray/Pandas avec un event bridge: https://aws.amazon.com/fr/blogs/aws/new-aws-glue-4-0-new-and-updated-engines-more-data-formats-and-more/
@tsafacjo issue pour Gael Page à monitorer: https://www.data.gouv.fr/fr/datasets/repertoire-national-des-associations/
Stats avec https://mljar.com/blog/how-to-use-jupyter-notebook/