lyulyul / shine-cluster

Simple High performance Infrastructure for Neural network Experiments
GNU General Public License v3.0
14 stars 8 forks source link

使用sbatch提交脚本不能得到输出 #180

Open luoyuqi-lab opened 1 year ago

luoyuqi-lab commented 1 year ago

若干用户报告sbatch脚本提交任务后得不到训练loss等结果。有三个推测:

  1. 由于掉卡问题,#172。用户正好申请到了掉了的那张显卡,所以得不到结果。
  2. conda问题,conda似乎总是卡死,如果不能正确conda activate,当然没法训练。 image image image
  3. 用户sbatch脚本或者训练代码问题,用户cencen配合测试,同一份代码srun能跑出结果,sbatch不能保存结果。

可能相关的问题: 1.计算节点频繁的drain:#166。并且之前推测是因为kill task failed,存在大量的D状态的进程。 2.温度导致的显卡不稳定,#174。证据是服务器巨大的噪音,甚至在没有任务的情况下。 3.硬件问题,nvidia驱动问题,conda版本是否有问题,是否应该更新。 4.把未上线的服务器上线,至少坏了一些,我们还有另一些可以用。#129 #87 5.重新稳定,一致,git版本对齐地重装计算节点和登录节点,目的是解决大量的历史遗留问题#177(比如完全放弃掉不需要的东西,严格按照wiki和文档来操作)。以及未来更好地找到问题。 6.解决堆积的任务能更好的定位bug。#178