transition-bibliographique / poc-fne

Preuve de concept basée sur Wikibase pour le "Fichier National d'Entités" (Abes/BNF). Projet réalisé en 2019.
http://www.abes.fr/Autorites-et-referentiels/Projet-FNE-Fichier-National-d-Entites
4 stars 1 forks source link

Estimation du temps de chargement de la totalité de l'échantillon #225

Closed gotnc closed 4 years ago

gotnc commented 4 years ago

Le temps peut être estimé en regénérant le chargement en local sans toucher à la WB ABES. Il est attendu qu'avec les temps de chargement soient indiquées les détails de la configuration utilisée et que le tout soit explicité dans le rapport final.

maxlath commented 4 years ago

J'ai effectué un chargement en local, ça donne ceci :


Résumé :

Comme vu ensemble, le nombre d'éléments d'origine ABES inférieur aux nombres de notices ABES est dû à la fusion de notices analysées à tord comme étant des doublons (on peut notamment voir les opérations d'enrichissement (enriched) d'éléments existant dans les logs, exemple)


Mesures de temps :

Aucune parallélisation n'a été implémentée pour le chargement, les 8 cœurs du processeur renseignés ci-dessous sont donc largement sous-exploités.


Environement :

Fichier de log complet

maxlath commented 4 years ago

Une piste d'optimisation du temps de chargement serait de faire les opérations de fusion/enrichissement en amont (transform) et donc de pouvoir paralléliser le chargement (load) : au doigt mouillé, on devrait pouvoir charger au moins 5 à 10 fois plus vite