Closed thbar closed 2 months ago
La console montre tout en vert, ce qui laisse à penser à un problème de load balancer.
Je vais regarder les autres hosts.
Les domaines suivants réagissent comme il faut:
Les domaines suivants sont cassés:
Je tente un restart sur prod-site
car c'est la seule app que je détecte comme étant impactée pour le moment. Peut-être un souci d'auto-restart.
J'ouvre un ticket chez CleverCloud, car il y a eu différents moments de downtime dans la journée, et là ça n'a pas détecté le souci correctement, ce qui aurait a priori perduré toute la nuit.
Les micro-coupures du jour.
Ticket envoyé à CleverCloud (#14GY4E3)
Bonsoir,
je vous écris pour deux raisons:
- nous avons eu des micro-coupures un peu toute la journée (et hier idem). J'ai attribué ça aux perturbations CleverCloud, mais rien ne reflétait trop ça dans la page status
- depuis une heure et quelque, l'application a fini par tomber en mode "redémarrage" sans vraiment redémarrer, et semblait "verte" dans le back office. Je l'ai redémarrée et tout s'est mis à fonctionner
Voir https://github.com/etalab/transport-site/issues/4205
Est-ce que les micro coupures sont liées à un souci chez vous ?
Savez-vous pourquoi le système n'a pas redémarré automatiquement l'application (qui semblait en dessous en bon état, je suspecte un souci de lien entre le load balancer et le noeud...).
Merci d'avance
-- Thibaut
Le tout semble stable pour le moment, à suivre demain.
CleverCloud enquête, car j'ai relancé et il y a eu des rechutes.
Vu que ça dure même si c'est léger et intermittent, j'ai fait une comm:
On retrouve bien des OOM dans les logs en filtrant comme suit (sur le site):
Pour le reste je vais relancer la personne.
J'ai comparé avec les alertes updown, on retombe bien sur les créneaux.
Donc effectivement:
Pour mémoire car c'est un point important et qui est déjà connu et embêtant, et pourrait amener à revoir la copie en terme d'hébergement, voilà l'email que je viens d'envoyer à CleverCloud:
Après analyse, on a un cumul de problèmes (l'un augmentant la probabilité de l'autre) - https://github.com/etalab/transport-site/issues/4205\#issuecomment-2363854885
- Une erreur de mémoire (régression chez nous) qu'on vient de corriger, et dont j'ai pu vérifier via des logs AppSignal + monitoring Updown que c'était la cause des redémarrages intempestifs
- Un problème déjà identifié de cas où l'application tombe chez nous, mais n'est pas redémarrée chez CleverCloud (cas qui s'est produit hier soir assez tard).
Le premier est complètement réglable de notre côté et devrait ne plus se produire.
Le deuxième vous appartient et sa probabilité d'occurrence augmente quand on a des soucis de notre côté !
Avez-vous pu identifier l'occurrence du cas 2 ? Il est important pour nous que l'application soit bien redémarrée en cas de souci, car notre équipe ne dispose pas d'astreinte officielle, donc c'est un selling point important de CleverCloud ! (et bien sûr, charge à nous d'éviter de créer des redémarrages intempestifs également)
Je clôture dans l'immédiat, je vais voir si CleverCloud apporte une réponse, et éventuellement ouvrir un ticket spécifique après, car c'est un souci qui revient (et il suffit d'une régression chez nous, pour finir en downtime longue durée, le week-end etc, donc pas acceptable à un moment).
Le problème s'est reproduit. Je redémarre l'application. Je ré-ouvre et je notifie CleverCloud.
CleverCloud m'a répondu, il y a bien un incident sur le système de déploiement chez eux. L'équipe y travaille.
Problème résolu chez CleverCloud.
Si ce souci revient je prendrai rendez-vous avec eux car gros impact pour nous.
Updown a alerté que le site est down depuis plus d'une heure.
https://transport.data.gouv.fr donne: