issues
search
datagouv
/
data.gouv.fr
Ce dépôt rassemble les tickets techniques qui portent sur data.gouv.fr.
https://www.data.gouv.fr
76
stars
14
forks
source link
Finaliser déploiement de hydra sur dev & demo
#1060
Closed
maudetes
closed
1 year ago
maudetes
commented
1 year ago
Notes en vrac
[ ] vérifier double envoi de message lors d'un upload
[x] schéma de postgres
[x] filtrer les jeux de données archivés
[x] tester crawling d'une partie du catalogue
[ ] programmer : purge_csv_tables
[ ] programmer : load du catalog
[x] Lancement du crawler sur dev avec le catalogue de dev et
hors statics
et
hors archived
le load du catalogue lui-même a pris ~80min
il a pris 2 jours entiers pour le check, l'analyse et le load en db dans le cas de csv compatibles
soucis de montée en RAM du crawler (possible sur du backoff sur datacat.datalocale.fr -> ajouté aux EXCLUDED_PATTERNS
environ la moitié des ressources matchent l'un des EXCLUDED_PATTERNS (geo.data.gouv.fr, format=shp, datacat.datalocale.fr) et ne sont pas crawlées
[x] load & crawl du catalogue de dev
avec statics
1 jour de traitement. pas de soucis spécifique.
[x] faire PRs pour corriger published + enlever extras parsing_tables + check différences de Timezones + rajouter headers pour preview
[x] attendre (ou provoquer) un re-crawl sur dev
[x] checker pourquoi des status 429 Too Many Requests sur
https://dev.data.gouv.fr/fr/datasets/base-officielle-des-codes-postaux/
et proposer un fix
[x] lancement sur demo avec le catalogue de prod (nécessite
la nouvelle colonne
dataset.archived
)
l'entièreté du crawl + analyse + csv to db a pris 3 jours
pas de soucis de montée en RAM
25K JDDs chargés en DBs
[x] comprendre montée en RAM (avec backoff datalocale?) -> probablement dû à
https://github.com/etalab/udata-hydra/pull/67
maudetes
commented
1 year ago
Deployed successfully on dev & demo
Notes en vrac
dataset.archived
)