Open luoyuqi-lab opened 1 year ago
若干用户报告sbatch脚本提交任务后得不到训练loss等结果。有三个推测:
可能相关的问题: 1.计算节点频繁的drain:#166。并且之前推测是因为kill task failed,存在大量的D状态的进程。 2.温度导致的显卡不稳定,#174。证据是服务器巨大的噪音,甚至在没有任务的情况下。 3.硬件问题,nvidia驱动问题,conda版本是否有问题,是否应该更新。 4.把未上线的服务器上线,至少坏了一些,我们还有另一些可以用。#129 #87 5.重新稳定,一致,git版本对齐地重装计算节点和登录节点,目的是解决大量的历史遗留问题#177(比如完全放弃掉不需要的东西,严格按照wiki和文档来操作)。以及未来更好地找到问题。 6.解决堆积的任务能更好的定位bug。#178
若干用户报告sbatch脚本提交任务后得不到训练loss等结果。有三个推测:
可能相关的问题: 1.计算节点频繁的drain:#166。并且之前推测是因为kill task failed,存在大量的D状态的进程。 2.温度导致的显卡不稳定,#174。证据是服务器巨大的噪音,甚至在没有任务的情况下。 3.硬件问题,nvidia驱动问题,conda版本是否有问题,是否应该更新。 4.把未上线的服务器上线,至少坏了一些,我们还有另一些可以用。#129 #87 5.重新稳定,一致,git版本对齐地重装计算节点和登录节点,目的是解决大量的历史遗留问题#177(比如完全放弃掉不需要的东西,严格按照wiki和文档来操作)。以及未来更好地找到问题。 6.解决堆积的任务能更好的定位bug。#178