osm-fr / infrastructure

Handle tickets against osm-fr infrastructure
MIT License
21 stars 4 forks source link

osm34 : VM Enedis HS #486

Closed flacombe closed 9 months ago

flacombe commented 1 year ago

Bonjour :)

La VM Enedis est encore tombée. Pouvez-vous la réveiller s'il vous plaît ?

jocelynj commented 1 year ago

Pour info, le status dans proxmox:

enedis-utilisation

Je redémarre la VM dans l'interface proxmox.

jocelynj commented 1 year ago

Ça remarche.

Il faudrait trouver quel process a saturé le cpu+ram, mais je ne sais pas trop que regarder - la dernière fois, je n'avais rien trouvé dans atop.

flacombe commented 1 year ago

Top, merci @jocelynj

Je pense que c'est imposm qui doit pédaler dans la semoule peut-être, mais c'est un problème en effet. Il faut que je fasse un peu de mise à jour prochainement, ce sera l'occasion de me pencher dessus

flacombe commented 10 months ago

Bonjour @jocelynj

Désolé je n'ai pas encore eu le temps de me pencher sur le comportement d'imposm mais la VM est encore tombée. La RAM est encore pleine ?

jocelynj commented 10 months ago

Proxmox dit effectivement que la RAM est saturé, et que le CPU tourne à fond. Je viens de redémarrer la VM, en augmentant la quantité de RAM et de CPU.

flacombe commented 9 months ago

Bonjour @jocelynj cela n'a visiblement pas réglé le soucis de stabilité.

C'est très étrange parce que j'ai le même docker qui tourne sur un autre machine sans aucun problème et il ne sature pas le CPU ni la RAM. Il a toutefois davantage de ressources et je ne peux pas en exiger autant de l'infra de l'asso. Peut-être devrais-je désactiver imposm et ne le mettre à jour qu'une fois par mois ?

Marc-marc-marc commented 9 months ago

idée sans avoir été voir ni les graphes ni la config : diminuer le nombre de thread, le buffer pg, choisir un moment + calme sur le serveur pour faire la maj, ajouter un nice sur les processus qui peuvent se faire killer sans trop de dégat faire que 1x par mois risque de faire un pic + haut et/ou plus long, c'est un peu la roulette russse

flacombe commented 9 months ago

Je vais faire des essais sur le pg quand ca sera revenu.

Tu as raison pour la mise à jour, je fais habituellement ça en début de nuit. De toute façons je le fais régulièrement en raison d'évolutions ou pour rattraper les fichiers complets pour éviter d'avoir trop de rattrapage à faire en cas de problème (ce qui est le cas ici).

Marc-marc-marc commented 9 months ago

kvm redémaré

zorun commented 9 months ago

Il y a un bug connu dans le kernel Proxmox qui fait freezer certaines VMs de façon aléatoire (100% CPU, et VM qui ne répond plus). Ça arrive d'autant plus fréquemment que la VM est "chargée" en accès mémoire, CPU, I/O.

Après plusieurs mois de recherche ça a été fixé récemment, il faut mettre à jour le kernel sur l'hôte physique, cf. https://forum.proxmox.com/threads/vms-freeze-with-100-cpu.127459/page-10#post-587633

flacombe commented 9 months ago

Merci @zorun pour l'info, je ne savais pas. Merci @Marc-marc-marc pour le restart

En tout cas je met ma stack en read-only en désactivant imposm en attendant que ce soit déployé chez nous

Marc-marc-marc commented 9 months ago

merci pour l'info, pve-kernel 6.2.16-11~bpo11+2 instrallé, reste à rebooter

Marc-marc-marc commented 9 months ago

@flacombe en lisant le fil du bug, cela va planter vaguement dans ~20 jours tant qu'on n'a pas redémarré le host sur le nouveau kernel. le délais pourrait être + court selon l'activité du baloon et de KSM mais le précédent plantage est même à un rien + que 20 jours... donc je suppose qu'on va vaguement vers le même délais Donc à mon avis rien ne t’empêche de lancer aujourd'hui la maj imposm, surtout si tu le lances à la main par ex avec nohup commande & en laissant le cron désactivé

flacombe commented 9 months ago

J'ai terminé mes opérations pour ce soir, vous pouvez reboot l'hôte à votre guise.

Marc-marc-marc commented 9 months ago

reboot effectué

uname -a
Linux osm34 6.2.16-11-bpo11-pve #1 SMP PREEMPT_DYNAMIC PVE 6.2.16-11~bpo11+2 (2023-09-04T14:49Z) x86_64 GNU/Linux