Open Wenting1227 opened 1 month ago
显存不足,把batch size改小
显存不足,把batch size改小
感谢您 不过我的batch size已经设置为1了,还是不行,显存是两张48g的。 关键是之前同样的参数和数据集是跑成功了的,突然就不行了,现在也搞不懂是哪里的问题了
跑一半出错: 1.torch和cuda变动过? 2.数据变动,有长度超长的情况,需要显存扩大导致oom。
多说一句:chatglm3是经过rlhf对齐的模型,不适合pretrain,可以用yi-base模型继续pt训练
跑一半出错: 1.torch和cuda变动过? 2.数据变动,有长度超长的情况,需要显存扩大导致oom。
多说一句:chatglm3是经过rlhf对齐的模型,不适合pretrain,可以用yi-base模型继续pt训练
了解了,谢谢您~
各位大佬,对chatglm3进行预训练运行pretraining.py时报错: RuntimeError: CUDA error: device-side assert triggered Compile with
TORCH_USE_CUDA_DSA
to enable device-side assertions. 想问一下怎么解决啊每次都是训练到134步时报错,之前训练都是好的,突然就这样了