Closed jhgoh closed 4 months ago
현재 잘 동작하는 것으로 보임.
mewtwo 가 slurm에서 빠져 있어서 다시 복구함
root@lugia:~# scontrol update nodename=mewtwo state=resume
root@lugia:~# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
normal* up infinite 4 alloc entei,ho-oh,raikou,suicune
gpu1 up infinite 1 down* lapras
gpu2 up infinite 1 idle* mewtwo
mewtwo의 slurm계정 정보가 없어 slurmd가 제대로 시작되지 않고 있었음. /etc/passwd
파일에 계정 추가 후 slurmd 재시작해서 해결함.
해당 시간 동안 UPS가 동작해 별다른 action없이도 잘 복구 된 것으로 보임. 계산노드 전원 공급이 UPS와 직결 전원으로 분산되어 있는 상태로, 직결된 쪽의 전원이 공급되지 않을 때 slurm job들이 자동으로 suspect 되고 이후 전원 공급되며 다시 resume되었을 것으로 추측함.
7월 7일 일요일 오전 8시부터 저녁 6시까지 건물 정전 예정.