etalab / transport-site

Rendre disponible, valoriser et améliorer les données transports
https://transport.data.gouv.fr
195 stars 30 forks source link

NewDatagouvDatasetsJob : gérer les JDDs publiés en privé initialement #4240

Open AntoineAugusti opened 1 month ago

AntoineAugusti commented 1 month ago

Ce job est en charge d'identifier les JDDs publiés récemment sur data.gouv.fr susceptibles d'avoir leur place sur notre plateforme. Ce job n'identifie pas les JDDs pertinents dans le cas où un JDD est créé en privé puis passé en public.

Plus de détails

created_at_internal dans l'API donne une date technique de création. Dans ce cas le producteur a créé le JDD vendredi matin en privé, lundi on regarde ce qui a été publié vendredi, samedi, dimanche mais le JDD n'était pas remonté car en privé.

Il passe en public courant de journée le lundi mais ne remonte pas dans le job du mardi chez nous car sa date de création est le vendredi.

Fix

Adapter le code ? Pas certain que l'on puisse. En échangeant avec data.gouv.fr peut-être avoir une date de publication d'un JDD (qui correspond à la création si JDD public dès le début ou lors du passage de privé à public)

cc @ptitfred qui a travaillé sur ce job il y a peu, pour ta curiosité

AntoineAugusti commented 1 month ago

@maudetes Pourras-tu nous ping quand il y aura un champ dans l'API pour connaitre la date de publication et pouvoir trier selon cette date ?

maudetes commented 3 weeks ago

Oui bien sûr ! Pour l'instant on n'a pas priorisé ce sujet pour info

AntoineAugusti commented 3 weeks ago

cc @etalab/transport-bizdev, pour votre bonne information il est possible que l'on loupe certains JDDs dans les tâches de veille des nouvelles publications à cause de ceci.

AurelienC commented 3 weeks ago

On pourrait aussi envisager que le job traite les JDD modifiés la veille ? Cela représente généralement peu de jeux de données, hormis quelques pics de modifications parfois.

Nb de JDD par last_update

image