chenxie95 / deeplearning_course_sjtu

14 stars 2 forks source link

关于图片摘要的oom-kill错误 #20

Open Howard-WU-Ark opened 2 years ago

Howard-WU-Ark commented 2 years ago

初次运行baseline(即程序运行过程中进行了数据集下载和许多包的安装)成功运行完毕,但后续仅改动了采样方法为beam后就出现了疑似内存不足的错误。之后仅加入scheduled sampler后,即便调节内存大小为8G也依然出现同样报错,现在不知道该如何解决了

Howard-WU-Ark commented 2 years ago

更新描述,cpu队列下可以正常运行,而a100上运行5到10分钟后自动被停止

wsntxxn commented 2 years ago

有试过把配置文件里的 load_img_to_memory 改成 False 吗

Howard-WU-Ark commented 2 years ago

有试过把配置文件里的 load_img_to_memory 改成 False 吗

没试过,第一次是直接过了,是因为第一次是把数据集下下来的吗?

wsntxxn commented 2 years ago

数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存

Howard-WU-Ark commented 2 years ago

数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存

的确可以运行起来了,不过第一次为什么能通过还是很不明朗,还是受到机器总体的内存空闲程度影响吗?

BravoFr0st commented 2 years ago

数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存

的确可以运行起来了,不过第一次为什么能通过还是很不明朗,还是受到机器总体的内存空闲程度影响吗?

想问一下这里被取消是因为GPU的VRAM oom还是什么原因

Howard-WU-Ark commented 2 years ago

数据集已经在超算上了,你说的内存不足的问题,暂不清楚是什么导致的,建议先试试不要把数据加载到内存

的确可以运行起来了,不过第一次为什么能通过还是很不明朗,还是受到机器总体的内存空闲程度影响吗?

想问一下这里被取消是因为GPU的VRAM oom还是什么原因 RuntimeError: DataLoader worker (pid(s) 2150614) exited unexpectedly slurmstepd: error: Detected 1 oom-kill event(s) in StepId=15043231.batch. Some of your processes may have been killed by the cgroup out-of-memory handler.