betagouv / rdv-service-public

Prise de RDV pour les services publics
https://rdv.anct.gouv.fr
GNU Affero General Public License v3.0
14 stars 2 forks source link

Mettre en place une remontée d'erreur quand la file d'attente GoodJob ne se déplie pas assez vite #3724

Open Holist opened 1 year ago

Holist commented 1 year ago

ℹ️ Contexte

Suite à une correction d'erreur ici : https://github.com/betagouv/rdv-solidarites.fr/pull/3718 Cela a engendré ce problème : https://github.com/betagouv/rdv-solidarites.fr/pull/3722 Mais en plus du bruit que la correction du code en erreur a créé dans sentry il s'est avéré que les jobs de synchros outlook se sont mis à tourner en boucle dans GoodJob. Ce matin nous avions 5 jobs de synchro outlook qui bloquaient notre file d'attente de jobs et plus de 25k jobs en attente. Nous avons besoin d'être alerté plus tôt si la file d'attente des jobs ne se déplient pas. C'est une situation qui avait déjà eu lieu dans un autre contexte il y a quelques mois.

EDIT : Un timeout des jobs va être mis en place mais une alerte si les jobs ne se dépilent pas assez vite pourrait tout de même être utile.

victormours commented 1 year ago

La mise en place du timeout dans https://github.com/betagouv/rdv-solidarites.fr/pull/3732 fait que ce ticket est beaucoup moins urgent, et rejoint le sujet plus large du monitoring, probablement avec des endpoint de healthcheck. Je le dépriorise de l'itération courante.