Open Howard-WU-Ark opened 2 years ago
更新描述,cpu队列下可以正常运行,而a100上运行5到10分钟后自动被停止
有试过把配置文件里的 load_img_to_memory 改成 False 吗
有试过把配置文件里的 load_img_to_memory 改成 False 吗
没试过,第一次是直接过了,是因为第一次是把数据集下下来的吗?
数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存
数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存
的确可以运行起来了,不过第一次为什么能通过还是很不明朗,还是受到机器总体的内存空闲程度影响吗?
数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存
的确可以运行起来了,不过第一次为什么能通过还是很不明朗,还是受到机器总体的内存空闲程度影响吗?
想问一下这里被取消是因为GPU的VRAM oom还是什么原因
数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存
的确可以运行起来了,不过第一次为什么能通过还是很不明朗,还是受到机器总体的内存空闲程度影响吗?
想问一下这里被取消是因为GPU的VRAM oom还是什么原因 RuntimeError: DataLoader worker (pid(s) 2150614) exited unexpectedly slurmstepd: error: Detected 1 oom-kill event(s) in StepId=15043231.batch. Some of your processes may have been killed by the cgroup out-of-memory handler.
初次运行baseline(即程序运行过程中进行了数据集下载和许多包的安装)成功运行完毕,但后续仅改动了采样方法为beam后就出现了疑似内存不足的错误。之后仅加入scheduled sampler后,即便调节内存大小为8G也依然出现同样报错,现在不知道该如何解决了