lyulyul / shine-cluster

Simple High performance Infrastructure for Neural network Experiments
GNU General Public License v3.0
14 stars 8 forks source link

如何进入另一个job,查看其GPU使用情况? #143

Open gqqnbig opened 2 years ago

gqqnbig commented 2 years ago

https://github.com/gqqnbig/shine-cluster/wiki/%E7%94%A8%E6%88%B7%E6%8C%87%E5%8D%97%EF%BC%9A%E7%94%A8SLURM%E8%BF%90%E8%A1%8C%E8%AE%A1%E7%AE%97%E4%BB%BB%E5%8A%A1#%E8%BF%9B%E5%85%A5%E5%90%8E%E5%8F%B0%E4%BD%9C%E4%B8%9A

这里的整个操作步骤疑似无效

Lu-233 commented 2 years ago

应该是有效的。我之前这样看过。

不过还是在程序里打log能更高频格式化的获取使用信息。

gqqnbig commented 2 years ago

如果上述方式失败...

能不能搞清楚什么时候失败,什么时候成功?不要让用户自己判断;也增强我们自己对slurm的理解。

Lu-233 commented 2 years ago

我没有遇到失败的情况。

刚刚我在dagobah上测试了一个、两个GPU时的情况,一切正常。

image

可以看到sbatch提交程序使用了两个GPU的显存。

步骤:

Lu-233 commented 2 years ago

关于wiki的文本:

gqqnbig commented 2 years ago

对于代码中的qiqig@aha:~$ srun --jobid 483 ,是无法执行的,应该为下一行的srun --jobid=483 --pty /bin/bash

is fixed in #142

Lu-233 commented 2 years ago

关于wiki中提到的GPU争抢的问题,即使存在也应该是slurm的特性。

seems good to me.