Closed WingsLong closed 8 months ago
请问是按README用AutoPeftModelForCausalLM
加载的吗?我们测试时候保存的文件里也没有generation_config.json,但代码会自动找到基础模型,好像会从基础模型的snapshot里加载这个文件。
请问是按README用
AutoPeftModelForCausalLM
加载的吗?我们测试时候保存的文件里也没有generation_config.json,但代码会自动找到基础模型,好像会从基础模型的snapshot里加载这个文件。
已经OK了,感谢!但是要部署模型,基础模型到时候他如何去读取,只拷贝output里面的文件应该是不行的吧
还有就是微调了几条数据,貌似没啥效果,还是基础模型的输出,训练的数据没有生效
但是要部署模型,基础模型到时候他如何去读取,只拷贝output里面的文件应该是不行的吧
基础模型的文件也需要复制的。output里面文件有个adapter_config.json,其中有base_model_name_or_path字段,改成相应的路径应该就可以。
微调了几条数据,貌似没啥效果
LoRA/QLoRA不同数据微调的实际效果不确定,建议您调整下训练超参数(比如轮数、学习率)或者LoRA的超参数试试了,还不奏效也可以试试增大数据量。
但是要部署模型,基础模型到时候他如何去读取,只拷贝output里面的文件应该是不行的吧
基础模型的文件也需要复制的。output里面文件有个adapter_config.json,其中有base_model_name_or_path字段,改成相应的路径应该就可以。
微调了几条数据,貌似没啥效果
LoRA/QLoRA不同数据微调的实际效果不确定,建议您调整下训练超参数(比如轮数、学习率)或者LoRA的超参数试试了,还不奏效也可以试试增大数据量。
好的,谢谢大佬解答,我再琢磨琢磨
您好,我在微调Gemma时也遇到了这种问题,我还在Gemma里面添加了自定义的网络结构,我直接使用的Huggingface的Trainer工具,使用peft和deepspeed stage 2来进行训练,保存也是trainer默认的配置。不知道该如何加载来推理了。
这是我保存的目录,方便的话可以给个示例吗或者相关的文档吗? 不胜感激!
微调后文件:
文件相对比较小,之前的path路径需不需要拷贝过来?Q-LoRA好像没办法进行合并,谢谢各位大佬 OSError: /Qwen-main/output_qwen does not appear to have a file named generation_config.json