osm-fr / infrastructure

Handle tickets against osm-fr infrastructure
MIT License
22 stars 4 forks source link

osm13 en panne #312

Closed cquest closed 2 years ago

cquest commented 3 years ago

Récap de remise en route des services (coché = remis en route):


Issue d'origine:

Notre serveur osm13 est en panne depuis vendredi après une première panne jeudi et un redémarrage.

Suite à son upgrade hardware, osm12 a été remis en place dans le même datacenter pour prendre petit à petit le relais.

cquest commented 3 years ago

Rendu humanitaire remis en route sur osm12 et redirection vers les tuiles osm.org supprimée d'osm23.

cquest commented 3 years ago

Deuxième intervention sur site:

C'est donc bien un problème hardware.

J'ai ramené osm13 chez moi, maintenant installé dans ma cave pour observation et tests. Il n'a pas eu d'erreur après 30mn de fonctionnement.

cquest commented 3 years ago

Après 36h de service... rien à signaler mais le serveur n'est pas du tout aussi chargé qu'il l'était. Je vais donc faire des tests en charge en simulant des demandes de tuiles à partir des tile-logs.

jocelynj commented 3 years ago

Les courbes munin montrent qu'il fait plus chaud dans ta cave que dans le datacenter :) http://munin.openstreetmap.fr/openstreetmap.fr/osm13.openstreetmap.fr/ipmi_temp.html

Mais les processeurs sont loin d'autant chauffer que dans le datacenter: http://munin.openstreetmap.fr/openstreetmap.fr/osm13.openstreetmap.fr/sensors_temp.html

Il faudrait effectivement monter la charge pour voir un truc équivalent: http://munin.openstreetmap.fr/openstreetmap.fr/osm13.openstreetmap.fr/cpu.html

cquest commented 3 years ago

Sûr que la température n'est pas la même (pas de clim), mais le bilan CO² non plus ;)

Simulation de charge en cours en rejouant le premier million de tuiles les plus consultées sur les tile-logs disponibles sur https://planet.openstreetmap.org/tile_logs/

cquest commented 3 years ago

osm13 était DOWN hier, j'ai pu m'y connecter à distance (150km) avec l'iDRAC et forcer un redémarrage (power OFF/ON). Cela n'a pas suffit... le boot ne se terminait pas. Ce matin, j'ai trouvé une bidouille pour la connexion en KVM/IP qui ne fonctionne qu'avec un vieux Java...

Un des volumes ext4 ne voulait pas monter donc un petit coup de fsck dessus et c'est reparti.

A surveiller, car je n'ai pas encore trouvé pourquoi il avait rebooté sauvagement... problème hardware qui revient ?

cquest commented 3 years ago

osm13 de retour, mais sûrement temporairement.

C'est à nouveau un problème hardware qui l'a fait planter, toujours au niveau alimentation CPU (erreur E1229 CPU 2 VCORE regulator failure).

Actions possibles:

cquest commented 3 years ago

Re-plantage hier soir, encore une histoire d'alimentation CPU...

cquest commented 3 years ago

J'ai transplanté les organes d'osm13 (disques HDD+SSD et RAM) dans un autre serveur inutilisé (un R710).

Tous les services devraient être à nouveau disponibles et stables.

cquest commented 2 years ago

Coupure temporaire pour passage sous Proxmox et retour chez free.

Cyrille37 commented 2 years ago

<3 Hello <3

Ben ce soir le rendu BANO n'est pas joignable depuis josm:

Info:


        (¯`·._.·[  Thanks to ours so lovely teckies  ]·._.·´¯)
ø¤º°`°º¤ø,¸¸,ø¤º°`°º¤ø,¸¸,ø¤º°`°º¤ø,¸¸,ø¤º°`°º¤ø¸¸,ø¤º°`°º¤ø¸¸,ø¤º°`°º¤ø```
cquest commented 2 years ago

Je vais avancer sur osm13 durant le week-end...

cquest commented 2 years ago

Rendus BDtopo, volta et hydro de retour Le reste va suivre... ainsi que les analyses osmose