osm-fr / infrastructure

Handle tickets against osm-fr infrastructure
MIT License
22 stars 4 forks source link

POST MORTEM: osm23 et osm24 down #296

Open cquest opened 3 years ago

cquest commented 3 years ago

Ce matin vers 8h, osm23 et osm24, nos deux VM hébergées par rezopole à Lyon étaient injoignables.

Voir: https://stats.uptimerobot.com/mQX5Vi5YW2/777678921

Impact :

Mail envoyé à rezopole à 8h40

Entre temps, pour rétablir le service, j'ai configuré un proxy_cache de secours sur le nginx d'osm25 ce qui implique :

Les tuiles FR et humanitaires puis cyclosm étaient à nouveau disponibles un peu avant 9h30.

Entre temps, réponse à 9h17 de rezopole, le serveur physique qui héberge les VM vient d'être relancé. Problème pour m'y connecter en SSH... l'IPv6 n'est pas remonté, mais IPv4 est OK. IPv6 reviendra vers 10h30, et donc je rebascule sur la config DNS d'origine.

A améliorer :

jocelynj commented 3 years ago

Concernant le DNS: j'ai vu que l'API gandi était assez simple à utiliser pour changer un CNAME. Il y a un exemple pour modifier A/AAAA sur https://github.com/Gandi/api-examples/blob/master/bash/livedns/mywanip.sh, et c'est simple à adapter pour modifier CNAME.

jocelynj commented 3 years ago

L'ipv6 d'osm25 est maintenant activé. Ça devrait enlever l'utilisation d'un pont pour la prochaine fois.

cquest commented 3 years ago

L'ipv6 d'osm25 est maintenant activé. Ça devrait enlever l'utilisation d'un pont pour la prochaine fois.

Effet de bord... nginx n'avait pas de listen IPv6 dans toutes ses config... en particulier celle du rendu FR ce qui a posé des problèmes au cache d'osm23.