shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
2.94k stars 451 forks source link

运行pretraining.py时报错:RuntimeError: CUDA error: device-side assert triggered #376

Open Wenting1227 opened 1 month ago

Wenting1227 commented 1 month ago

各位大佬,对chatglm3进行预训练运行pretraining.py时报错: RuntimeError: CUDA error: device-side assert triggered Compile with TORCH_USE_CUDA_DSA to enable device-side assertions. 想问一下怎么解决啊

微信图片_20240516102933

每次都是训练到134步时报错,之前训练都是好的,突然就这样了

shibing624 commented 1 month ago

显存不足,把batch size改小

Wenting1227 commented 1 month ago

显存不足,把batch size改小

感谢您 不过我的batch size已经设置为1了,还是不行,显存是两张48g的。 关键是之前同样的参数和数据集是跑成功了的,突然就不行了,现在也搞不懂是哪里的问题了

shibing624 commented 1 month ago

跑一半出错: 1.torch和cuda变动过? 2.数据变动,有长度超长的情况,需要显存扩大导致oom。

多说一句:chatglm3是经过rlhf对齐的模型,不适合pretrain,可以用yi-base模型继续pt训练

Wenting1227 commented 1 month ago

跑一半出错: 1.torch和cuda变动过? 2.数据变动,有长度超长的情况,需要显存扩大导致oom。

多说一句:chatglm3是经过rlhf对齐的模型,不适合pretrain,可以用yi-base模型继续pt训练

了解了,谢谢您~