Open SongHanKen opened 3 days ago
先参考https://zhipu-ai.feishu.cn/wiki/QanjwjOuaiWMZ6kdVZfcNZwCnBh?fromScene=spaceOverview试试可以不,命令最后加yes
感谢您的回复, 我就是按照demo中的方法在命令后加了yes, 同时我也尝试过在finetune.py里直接指定trainer.train(resume_from_checkpoint="/home/zhangjunyi/hs_test/finetune_demo/output_new/checkpoint-20"), 这两种方法都无法resume 训练
System Info / 系統信息
Peft v0.13.2 Transformers v4.44.0 Accelerate v0.33.0
Who can help? / 谁可以帮助到您?
No response
Information / 问题信息
Reproduction / 复现过程
我尝试使用glm4-9b 中的fintune.py 结合peft中的xlora进行模型训练. finetune.py没有做任何的修改, 以下是我的xlora.yaml文件:
其中的adapter_0和adapter_1是我使用glm4-9b以及finetune.py训练的lora adapter. 目前我在结合xlora训练时候的时候是可以保存checkpoint的, 但是当我在从last checkpoint 恢复训练的时候就会发生报错. 以下是完整的报错信息:
这个是我在结合xlora时保存的checkpoint
Expected behavior / 期待表现
非常感谢任何的指导去解决这个xlora检查点恢复的问题。如果有人遇到过类似的问题,或者对xlora成功启用检查点恢复的具体设置或步骤有见解,那么您的建议将是非常宝贵的。此外,如果任何熟悉xlora的维护者或社区成员能够提供支持,那将非常有帮助。非常感谢!