thbar commented 2 months ago

Updown a alerté que le site est down depuis plus d'une heure.

CleanShot 2024-09-19 at 23 41 01@2x

thbar commented 2 months ago

La console montre tout en vert, ce qui laisse à penser à un problème de load balancer.

CleanShot 2024-09-19 at 23 41 57@2x

Je vais regarder les autres hosts.

thbar commented 2 months ago

Les domaines suivants réagissent comme il faut:

Les domaines suivants sont cassés:

thbar commented 2 months ago

Je tente un restart sur prod-site car c'est la seule app que je détecte comme étant impactée pour le moment. Peut-être un souci d'auto-restart.

thbar commented 2 months ago

https://updown.io/pl8a

CleanShot 2024-09-19 at 23 49 51@2x

CleanShot 2024-09-19 at 23 48 31@2x

thbar commented 2 months ago

J'ouvre un ticket chez CleverCloud, car il y a eu différents moments de downtime dans la journée, et là ça n'a pas détecté le souci correctement, ce qui aurait a priori perduré toute la nuit.

thbar commented 2 months ago

CleanShot 2024-09-19 at 23 51 55@2x

Les micro-coupures du jour.

thbar commented 2 months ago

Ticket envoyé à CleverCloud (#14GY4E3)

Bonsoir,

je vous écris pour deux raisons:

nous avons eu des micro-coupures un peu toute la journée (et hier idem). J'ai attribué ça aux perturbations CleverCloud, mais rien ne reflétait trop ça dans la page status

depuis une heure et quelque, l'application a fini par tomber en mode "redémarrage" sans vraiment redémarrer, et semblait "verte" dans le back office. Je l'ai redémarrée et tout s'est mis à fonctionner

Voir https://github.com/etalab/transport-site/issues/4205

Est-ce que les micro coupures sont liées à un souci chez vous ?

Savez-vous pourquoi le système n'a pas redémarré automatiquement l'application (qui semblait en dessous en bon état, je suspecte un souci de lien entre le load balancer et le noeud...).

Merci d'avance

-- Thibaut

Le tout semble stable pour le moment, à suivre demain.

thbar commented 2 months ago

CleverCloud enquête, car j'ai relancé et il y a eu des rechutes.

thbar commented 2 months ago

Vu que ça dure même si c'est léger et intermittent, j'ai fait une comm:

https://x.com/transportdatafr/status/1837082903211073990

AntoineAugusti commented 2 months ago

4206 devrait expliquer les OOMs qui entrainent des crashs et reboot mais l'absence de reboot hier soir suite à un crash devrait être expliqué par l'incident de Pulsar leur message queue qui est peut-être utilisé pour les déploiements

thbar commented 2 months ago

On retrouve bien des OOM dans les logs en filtrant comme suit (sur le site):

CleanShot 2024-09-20 at 16 12 52@2x

Pour le reste je vais relancer la personne.

thbar commented 2 months ago

J'ai comparé avec les alertes updown, on retombe bien sur les créneaux.

Donc effectivement:

OOM -> #4206 et rien d'autre à priori
Le "no restart" ça c'est le problème qui revient de temps en temps chez Clever (mais en traitant #4206 on limitera son impact aussi). Je les tiens au courant.

thbar commented 2 months ago

Pour mémoire car c'est un point important et qui est déjà connu et embêtant, et pourrait amener à revoir la copie en terme d'hébergement, voilà l'email que je viens d'envoyer à CleverCloud:

Après analyse, on a un cumul de problèmes (l'un augmentant la probabilité de l'autre) - https://github.com/etalab/transport-site/issues/4205\#issuecomment-2363854885

Une erreur de mémoire (régression chez nous) qu'on vient de corriger, et dont j'ai pu vérifier via des logs AppSignal + monitoring Updown que c'était la cause des redémarrages intempestifs

Un problème déjà identifié de cas où l'application tombe chez nous, mais n'est pas redémarrée chez CleverCloud (cas qui s'est produit hier soir assez tard).

Le premier est complètement réglable de notre côté et devrait ne plus se produire.

Le deuxième vous appartient et sa probabilité d'occurrence augmente quand on a des soucis de notre côté !

Avez-vous pu identifier l'occurrence du cas 2 ? Il est important pour nous que l'application soit bien redémarrée en cas de souci, car notre équipe ne dispose pas d'astreinte officielle, donc c'est un selling point important de CleverCloud ! (et bien sûr, charge à nous d'éviter de créer des redémarrages intempestifs également)

thbar commented 2 months ago

Je clôture dans l'immédiat, je vais voir si CleverCloud apporte une réponse, et éventuellement ouvrir un ticket spécifique après, car c'est un souci qui revient (et il suffit d'une régression chez nous, pour finir en downtime longue durée, le week-end etc, donc pas acceptable à un moment).

thbar commented 2 months ago

Le problème s'est reproduit. Je redémarre l'application. Je ré-ouvre et je notifie CleverCloud.

thbar commented 2 months ago

CleverCloud m'a répondu, il y a bien un incident sur le système de déploiement chez eux. L'équipe y travaille.

thbar commented 2 months ago

Problème résolu chez CleverCloud.

Si ce souci revient je prendrai rendez-vous avec eux car gros impact pour nous.

etalab / transport-site

Site en panne #4205

4206 devrait expliquer les OOMs qui entrainent des crashs et reboot mais l'absence de reboot hier soir suite à un crash devrait être expliqué par l'incident de Pulsar leur message queue qui est peut-être utilisé pour les déploiements