Closed cwwhh closed 3 months ago
您好,感谢对我们工作的关注。因为我没有试过zero3训练,所以也无法给出准确的解决方案。但是从报错来看,可能是模型训练完后保存adapter出了问题,建议把--save_steps
设置为1,然后调试一下保存checkpoint的代码,具体可以调试一下peft/utils/save_and_load
中的set_peft_model_state_dict
函数。
祝好
谢谢您的帮助,但是修改save_steps后还是同样的报错。请问你们用的多少GB的内存呢?或者是否可以将训练好的代码上传一下呢?
好的,谢谢您。
作者您好,拜读您文章后进行试验复现时出现一些问题,希望您给予帮助。由于内存有限,我们使用zero3策略训练模型后,在测试阶段遇到问题如下:
训练好后的模型文件如图