yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
2.85k stars 355 forks source link

Lora训练一段时间后出现OOM报错 #125

Open 976311200 opened 1 year ago

976311200 commented 1 year ago

纯py文件执行大概准时在167/1719时候报错oom 如果用提供的ipyob执行,大概在250/1719报错oom 对于显存释放,采用了提供的callback方式

LuBoMeiYouYan commented 1 year ago

@yuanzhoulvpi2017 您好,可以了解一下您在LoRa训练时候的,显存占用情况吗? 我这里也是。LoRa训练时,加载需要12个G。然后从第二step开始,最低显存占用逐渐增多,最高显存占用从20G+开始逐渐增加。然后到133个step的时候,突然超过32G(我的显卡显存是32G),然后就OOM了。

yuanzhoulvpi2017 commented 1 year ago

确实是会出现这个情况,目前我也没有比较好的方法,解决这个问题