cpnr / computing

0 stars 0 forks source link

slurm 설정 변경: cpu당 메모리 사용량 #32

Closed jhgoh closed 7 months ago

jhgoh commented 8 months ago

CPU당 메모리 사용량 옵션 변경

cat /etc/slurm/slurm.conf | grep -i mem
PropagateResourceLimitsExcept=MEMLOCK
DefMemPerCPU=1800
MaxMemPerCPU=4000
SelectTypeParameters=CR_CPU_Memory
NodeName=hep CPUs=40 RealMemory=128000 State=Unknown
NodeName=lugia CPUs=256 RealMemory=384000 State=Unknown
NodeName=ho-oh CPUs=64 RealMemory=128000 State=Unknown
NodeName=lapras CPUs=128 RealMemory=256000 Gres=gpu:2080ti:4 State=Unknown
NodeName=mewtwo CPUs=12 RealMemory=128000 Gres=gpu:1080ti:1 State=Unknown
NodeName=raikou CPUs=128 RealMemory=512000 State=Unknown
NodeName=entei CPUs=128 RealMemory=512000 State=Unknown
NodeName=suicune CPUs=128 RealMemory=512000 State=Unknown

설정 변경 후 각 노드에 설정파일은 전파했으나, 현재 실행중인 job들이 있어 설정 적용을 위한 서비스 재시작은 job이 없을때 할 예정임.

jhgoh commented 7 months ago

mewtwo 외의 서버들에 대해 slurmd 재시작함. hep에서는 slurmctld 재시작함.

[root@hep:~]# scontrol show config | grep DefMem
DefMemPerCPU            = 1800
[root@hep:~]# scontrol show config | grep MaxMem
MaxMemPerCPU            = 4000
jhgoh@lugia:~$ scontrol show config | grep DefMem
DefMemPerCPU            = 1800
jhgoh@lugia:~$ scontrol show config | grep MaxMem
MaxMemPerCPU            = 4000
jhgoh commented 7 months ago

mewtwo는 현재 실행중인 잡 외에 나머지를 일단 hold시킴. 작업 완료 후 slurmd재시작하고 hold된 job들을 release할 예정.

             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
            184099      gpu2 run_trai wonsang1 PD       0:00      1 (JobHeldAdmin)
            184098      gpu2 run_trai wonsang1 PD       0:00      1 (JobHeldAdmin)
            184097      gpu2 run_trai wonsang1 PD       0:00      1 (JobHeldAdmin)
            184096      gpu2 run_trai wonsang1 PD       0:00      1 (JobHeldAdmin)
            184095      gpu2 run_trai wonsang1  R   21:43:11      1 mewtwo
jhgoh commented 7 months ago

해당 job이 계속 실행중이고 mewtwo로의 설정 적용은 급한 이슈가 아니므로 hold된 job을 release. 나중에 reboot등을 하게 되면 자연스럽게 적용될 것으로 기대하고 이 issue는 close함.