Open gqqnbig opened 2 years ago
应该是有效的。我之前这样看过。
不过还是在程序里打log能更高频格式化的获取使用信息。
如果上述方式失败...
能不能搞清楚什么时候失败,什么时候成功?不要让用户自己判断;也增强我们自己对slurm的理解。
我没有遇到失败的情况。
刚刚我在dagobah上测试了一个、两个GPU时的情况,一切正常。
可以看到sbatch提交程序使用了两个GPU的显存。
步骤:
srun --jobid=123456 --pty /bin/bash
nvidia-smi
关于wiki的文本:
qiqig@aha:~$ srun --jobid 483
,是无法执行的,应该为下一行的srun --jobid=483 --pty /bin/bash
注意
可能有问题,在我上一个截图中,可以看出srun并没有挤占sbatch申请的GPU。这可能需要作者解释当时的情况。对于代码中的qiqig@aha:~$ srun --jobid 483 ,是无法执行的,应该为下一行的srun --jobid=483 --pty /bin/bash
is fixed in #142
关于wiki中提到的GPU争抢的问题,即使存在也应该是slurm的特性。
seems good to me.
https://github.com/gqqnbig/shine-cluster/wiki/%E7%94%A8%E6%88%B7%E6%8C%87%E5%8D%97%EF%BC%9A%E7%94%A8SLURM%E8%BF%90%E8%A1%8C%E8%AE%A1%E7%AE%97%E4%BB%BB%E5%8A%A1#%E8%BF%9B%E5%85%A5%E5%90%8E%E5%8F%B0%E4%BD%9C%E4%B8%9A
这里的整个操作步骤疑似无效