zazuko / data-cube-curation

MIT License
1 stars 0 forks source link

Pipeline run successfully but no triples in INT #304

Open PDumasBAR opened 4 years ago

PDumasBAR commented 4 years ago

Jeudi 23.10, j'ai testé avec le BFE (MM Foletti et Tochtermann) la version actuelle de notre outil sur le projet BFE EnPersp L'import des CSV a fonctionné sans problème (pas de message d'erreur "The specified key does not exist" (voir issue 282

La définition du mapping s'est plutôt bien déroulée. Une seule fois M. Foletti a tapé {Esc} et perdu le mapping courant.

J'ai pu uploader les fichiers sources sur le S3 bucket et lancer la transformation : ld.zip

1ère constatation, M. Foletti n'a pas accès à https://gitlab.ldbar.ch/zazuko/datacube-pipelines/..., est-ce qu'il lui suffit d'avoir un compte GitLab pour y accéder ou devons nous (BAR, Zazuko ou VSHN) lui donner les droits d'accès ?

J'ai les droits nécessaires et j'ai pu accéder au pipeline. Le job correspondant affiche Job Succeeded, mais aucun triple n'a été créé dans Int.

Les tentatives suivantes aboutissent toujours au même résultat.

Vendredi 24.10, j'ai analysé les fichiers sources et constaté des différences par rapport à mes fichiers (Stapfer), à ceux de Jean-Luc (Staatsrechnungen) ou le fichier ISIL. J'ai converti les fichiers UTF-8 avec BOM en UTF8. Même résultat.

Dans les fichiers d'origine, les clefs sont constitués de string qui contiennent des espaces et ou des caractères accentués. Pour simplifier les URI à générer, j'ai ajouté des clefs plus simple, des codes XX01, XX02, etc. et j'ai uploader ces nouveaux fichier sur S3 : UTF8_New.zip

Avec ces nouveaux fichiers les triples ont pu être importés.

J'imagine bien que ça risque d'être compliqué de faire une validation des fichiers CSV lors du 1er import dans le projet actuel, mais ça devrait au-minimum être intégré dans le nouveau projet du BAFU. Pour la version actuelle ce serait bien de nous donner au minimum les caractéristiques d'un fichier CSV qui peut être transformé et importé dans le triple store (format, format de date, caractères utilisables dans les URI, etc.).