datagouv / data.gouv.fr

Ce dépôt rassemble les tickets techniques qui portent sur data.gouv.fr.
https://www.data.gouv.fr
76 stars 14 forks source link

[hydra] crawler les ressources dont le last_check n'existe plus #1542

Closed maudetes closed 3 weeks ago

maudetes commented 3 weeks ago

Le dernier cas de sélection de batch suppose qu'on peut fetch le check correspondant au last_check renseigné. En cas de bug (ou perte d'historique ou autre), on peut avoir un last_check qui est un id de check qui n'existe plus dans la table checks. Les checks sont en effet purgés au bout d'un temps.

Dans ce cas, la ressource ne sera plus jamais crawlée car non retournée à cause de AND catalog.last_check = checks.id. Il faudrait prendre en compte ces ressources si elles référencent un check disparu depuis.

Il est aussi possible de supprimer le last_check dans le cas de purge d'un check, mais il existe la possibilité de supprimer ponctuellement un check dans la db et donc le risque d'avoir un last_check inexistant.

Commande run manuellement en prod en attente de fix :

hydra-hydra=> UPDATE catalog SET last_check = NULL WHERE catalog.last_check NOT IN (SELECT id FROM checks) AND deleted = false;
UPDATE 20351
bolinocroustibat commented 3 weeks ago

PR: https://github.com/datagouv/hydra/pull/195