osm-fr / infrastructure

Handle tickets against osm-fr infrastructure
MIT License
21 stars 4 forks source link

enedis.vm.openstreetmap.fr down #451

Closed flacombe closed 1 year ago

flacombe commented 1 year ago

Bonjour

La VM enedis.vm.openstreetmap.fr sur l'hôte osm34 semble être down depuis hier midi. http://munin.openstreetmap.fr/osm34.openstreetmap.fr/enedis.vm.openstreetmap.fr/index.html

Quelle est la cause de ce problème s'il vous plaît ?

Je ne suis pas autonome pour la faire revivre, n'hésitez pas à partager la méthode pour que je puisse le faire à l'avenir.

jocelynj commented 1 year ago

La VM avait l'air saturé en ram, et un ssh ne marche pas. J'ai rebooté la VM via proxmox.

jocelynj commented 1 year ago

Ça a l'air reparti: vu que la ram était saturé à 100% et qu'un cpu tournait à 100%, je pense qu'un process était parti en vrille. J'ai installé atop sur la VM pour en savoir plus la prochaine fois.

flacombe commented 1 year ago

Merci ! Les services ont redémarré normalement, ca permet de tester le reboot automatique

Surprenant, je n'ai pas l'impression que la RAM soit saturée, en tout cas que son état soit différent d'avant la panne image

jocelynj commented 1 year ago

Oui, munin n'affiche rien sur la saturation ram/cpu. C'est sur les infos de proxmox (directement sur le host) que j'ai vu que ram et cpu était saturés.

flacombe commented 1 year ago

Hello

La VM Enedis est de nouveau absente. Elle n'a pas redémarré automatiquement depuis le 23/06

Pouvez-vous faire quelque chose s'il vous plaît ?

jocelynj commented 1 year ago

Je viens de redémarrer la VM via qm stop / qm start.

Le dernier log d'atop montre juste que ça s'est bloqué vers 2023/06/23 10:10:02, et que osmium tournait, mais pas assez d'info pour savoir la raison du blocage.

ATOP - enedis            2023/06/23  10:10:02            ----------------            10m0s elapsed
PRC | sys   52.48s |  user  13m58s | #proc    117 |  #tslpu     0 | #zombie    0 |  #exit    786 |
CPU | sys       9% |  user    141% | irq       0% |  idle     48% | wait      2% |  ipc notavail |
cpu | sys       4% |  user     76% | irq       0% |  idle     19% | cpu000 w  1% |  ipc notavail |
cpu | sys       4% |  user     65% | irq       0% |  idle     29% | cpu001 w  2% |  ipc notavail |
CPL | avg1    1.62 |  avg5    1.57 | avg15   1.29 |  csw   769110 | intr  563639 |  numcpu     2 |
MEM | tot    15.6G |  free  163.1M | cache  10.9G |  buff   43.4M | slab  246.6M |  hptot   0.0M |
SWP | tot     0.0M |  free    0.0M | swcac   0.0M |               | vmcom   8.0G |  vmlim   7.8G |
PAG | scan 7629784 |  steal 6788e3 | stall      0 |               | swin       0 |  swout      0 |
PSI | cpusome   6% |  memsome   0% | memfull   0% |  iosome    3% | iofull    0% |  cs     2/2/4 |
DSK |          sda |  busy     16% | read   20408 |  write  10669 | MBw/s    7.2 |  avio 3.11 ms |
NET | transport    |  tcpi     626 | tcpo     678 |  udpi       8 | udpo       8 |  tcpao     22 |
NET | network      |  ipi     2903 | ipo     1487 |  ipfrw    891 | deliv    643 |  icmpo     12 |
NET | veth75e ---- |  pcki    2607 | pcko    2582 |  sp    0 Mbps | si    6 Kbps |  so   11 Kbps |
NET | eth0    ---- |  pcki     637 | pcko     535 |  sp    0 Mbps | si    9 Kbps |  so    3 Kbps |
NET | br-2ce1 ---- |  pcki     529 | pcko     550 |  sp    0 Mbps | si    2 Kbps |  so    9 Kbps |
NET | vetha5e ---- |  pcki    2130 | pcko    2178 |  sp    0 Mbps | si    2 Kbps |  so    6 Kbps |
NET | lo      ---- |  pcki     118 | pcko     118 |  sp    0 Mbps | si    2 Kbps |  so    2 Kbps |
NET | eth1    ---- |  pcki    3191 | pcko     319 |  sp    0 Mbps | si    2 Kbps |  so    1 Kbps |
NET | veth00b ---- |  pcki      98 | pcko     100 |  sp    0 Mbps | si    2 Kbps |  so    0 Kbps |
NET | vethb87 ---- |  pcki       0 | pcko       3 |  sp    0 Mbps | si    0 Kbps |  so    0 Kbps |
NET | vethba9 ---- |  pcki       0 | pcko       3 |  sp    0 Mbps | si    0 Kbps |  so    0 Kbps |
NET | veth1bd ---- |  pcki       0 | pcko       3 |  sp    0 Mbps | si    0 Kbps |  so    0 Kbps |

    PID CID          SYSCPU USRCPU RDELAY  VGROW  RGROW  RDDSK  WRDSK S CPUNR  CPU CMD        1/38
2484783 06ac2fce8973 26.94s  6m53s 44.54s   3.3G   3.1G   8.0G 403.8M S     0  74% osmium
2483573 ?             9.69s  6m08s      -     0K     0K      -      - E     -  63% <osmium>
2484390 ?             3.37s 36.77s      -     0K     0K      -      - E     -   7% <postgres>
2484758 ?             0.55s  4.50s      -     0K     0K      -      - E     -   1% <postgres>
2484397 ?             0.33s  3.98s      -     0K     0K      -      - E     -   1% <postgres>
   1345 3e86ba54ae54  2.58s  0.79s  0.23s     0K     0K     0K 870.0M S     0   1% postgres
     55 host--------  3.08s  0.00s  0.23s     0K     0K     0K     0K S     1   1% kswapd0
   1485 1e72693df00c  0.60s  1.93s  2.56s  4068K  -0.3G 149.9M  2564K S     0   0% imposm3