tchapgouv / tchap-stats

Scripts et organisation des statistiques fournies à Metabase provenant des données matrix
2 stars 1 forks source link

Retablir l'aggregation par mois sur une longue période #75

Closed odelcroi closed 1 month ago

odelcroi commented 1 month ago

la materialized_view user_daily_visits_by_month_18m a été desactivée car elle est trop grosse pour être calculée par la bdd (8Go)

cf #73

Pourquoi la rétablir?

Pistes :

1. Optimiser la mat view

  1. Utilisation de l'option CONCURRENTLY
  2. Diviser le rafraîchissement en lots
  3. Exécuter un VACUUM ANALYZE

2. ETL externe

mettre en place un outil d'ETL plus flexible et rapide que les materialized_view (batch, calcul distribuée) qui pourrait être réutilisé sur tout le pipeline Tchap (depuis les tables de prod jusque metabase) En python (via openai) avec des volumes de données d'environ 8 Go, voici quelques suggestions selon tes besoins :

-Pandas/Dask semble facile à mettre en oeuvre dans un environnement scalingo/python

odelcroi commented 1 month ago

Solution alternative :

odelcroi commented 1 month ago

fixed by https://github.com/tchapgouv/tchap-stats/commit/6fa246e9344156b71c86359359e4cef6a9a10a60

https://stats.tchap.incubateur.net/question/619-nouvelle-table-users-actifs