isogeo / dcat-server

Serveur DCAT pour Isogeo
GNU General Public License v3.0
0 stars 0 forks source link

Récupérer le format d'un fichier téléversé et compléter le champ Format de la ressource #1

Closed leodarengosse closed 2 years ago

leodarengosse commented 2 years ago

Actuellement, le champ format est saisi uniquement pour les liens ayant une url direct avec une extension csv/geojson/zip/gz/tiff ou pour les données livrées par un service WFS ou EFS compatible

Il faudrait également compléter ce champ lorsque les données sont hébergées par Isogeo, ce qui necessite de récupérer cette information dans le fichier bin stocké sur Azure.

Exemple ou le format est indiqué pour un service mais pas pour un fichier téléversé

image

jgrosmaire commented 2 years ago

Le serveur DCAT plante lorsque qu'on souhaite télécharger une donnée téléversée qui rencontre une erreur. (ex : https://app.isogeo.com/groups/a98b04d94b844f1e8362103046fdc32e/resources/bcb286d5d285414e934b06f57e2d6ea5/resources équipements sportifs). il faut d'abord réparer ce problème.

/3270d22682224ed4b928b62491f260ad/LVl0wj0m298x1GoxNM9I6uoLVGyZ0/download/bcb286d5d285414e934b06f57e2d6ea5/d43ab1f9a0f14836a7db797423ccd257

jgrosmaire commented 2 years ago

@leodarengosse j'ai besoin de quelques infos pour continuer :

Liste des formats

J'ai récupérer les formats des données disponibles. Seulement, certains formats ne sont actuellement pas reconnus à cause de la nomenclature.

Les formats concernés sont :

Pour gérer ces cas, soit je mets un patch spécifique à ces formats, soit je rajoute json et jpeg dans la liste des extensions possibles mais cela s'appliquera aussi aux données non téléversées. Si il y a un lien de téléchargement de json, il sera donc disponible alors qu'aujourd'hui il ne l'est pas.

Il serait aussi possible de faire un check d'extension.

De plus, il y a pas mal de donnée en png qui n'est pas un format de la liste, faut-il ajouter ce format ?

Récupération des formats pour les données non téléversées

Le ticket parle seulement des données téléversées mais la détection des format se fait par l'extension uniquement, il y a donc aussi certaines données avec un url n'ayant pas de format.

image

Faut-il les récupérer ? Sachant bien sûr, évidemment, chaque requête ralenti le serveur DCAT.

Données non disponibles

Suite au problème mentionné ci-dessus, certaines données ne sont pas téléchargeables et font même planter le serveur à cause de l'erreur renvoyée par l'API (exemple). J'ai ajouté une gestion d'erreur pour ne pas faire planter le serveur mais on ne peut toujours pas récupérer la donnée (Le problème vient de l'API/des espaces de stockage, on ne peut pas non plus sur APP). Comment gère t-on ce cas ?

Je ne sais pas comment les choses sont gérées dans data.gouv donc dur de dire comment gérer