Closed jhgoh closed 7 months ago
mewtwo 외의 서버들에 대해 slurmd 재시작함. hep에서는 slurmctld 재시작함.
[root@hep:~]# scontrol show config | grep DefMem
DefMemPerCPU = 1800
[root@hep:~]# scontrol show config | grep MaxMem
MaxMemPerCPU = 4000
jhgoh@lugia:~$ scontrol show config | grep DefMem
DefMemPerCPU = 1800
jhgoh@lugia:~$ scontrol show config | grep MaxMem
MaxMemPerCPU = 4000
mewtwo는 현재 실행중인 잡 외에 나머지를 일단 hold시킴. 작업 완료 후 slurmd재시작하고 hold된 job들을 release할 예정.
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
184099 gpu2 run_trai wonsang1 PD 0:00 1 (JobHeldAdmin)
184098 gpu2 run_trai wonsang1 PD 0:00 1 (JobHeldAdmin)
184097 gpu2 run_trai wonsang1 PD 0:00 1 (JobHeldAdmin)
184096 gpu2 run_trai wonsang1 PD 0:00 1 (JobHeldAdmin)
184095 gpu2 run_trai wonsang1 R 21:43:11 1 mewtwo
해당 job이 계속 실행중이고 mewtwo로의 설정 적용은 급한 이슈가 아니므로 hold된 job을 release. 나중에 reboot등을 하게 되면 자연스럽게 적용될 것으로 기대하고 이 issue는 close함.
CPU당 메모리 사용량 옵션 변경
설정 변경 후 각 노드에 설정파일은 전파했으나, 현재 실행중인 job들이 있어 설정 적용을 위한 서비스 재시작은 job이 없을때 할 예정임.