QwenLM / Qwen

The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud.
Apache License 2.0
12.47k stars 1.01k forks source link

Q-LoRA微调训练后的要怎么使用,直接加载output路径会缺失文件 #602

Closed WingsLong closed 8 months ago

WingsLong commented 8 months ago

微调后文件:

-rw-r--r-- 1 root root  480 Nov  9 10:53 adapter_config.json
-rw-r--r-- 1 root root 426M Nov  9 10:53 adapter_model.bin
-rw-r--r-- 1 root root 2.5M Nov  9 10:53 qwen.tiktoken
-rw-r--r-- 1 root root  500 Nov  9 10:53 README.md
-rw-r--r-- 1 root root   35 Nov  9 10:53 special_tokens_map.json
-rw------- 1 root root 9.4K Nov  9 10:53 tokenization_qwen.py
-rw-r--r-- 1 root root  237 Nov  9 10:53 tokenizer_config.json
-rw-r--r-- 1 root root 1.2K Nov  9 10:53 trainer_state.json
-rw-r--r-- 1 root root 6.0K Nov  9 10:53 training_args.bin

文件相对比较小,之前的path路径需不需要拷贝过来?Q-LoRA好像没办法进行合并,谢谢各位大佬 OSError: /Qwen-main/output_qwen does not appear to have a file named generation_config.json

jklj077 commented 8 months ago

请问是按README用AutoPeftModelForCausalLM加载的吗?我们测试时候保存的文件里也没有generation_config.json,但代码会自动找到基础模型,好像会从基础模型的snapshot里加载这个文件。

WingsLong commented 8 months ago

请问是按README用AutoPeftModelForCausalLM加载的吗?我们测试时候保存的文件里也没有generation_config.json,但代码会自动找到基础模型,好像会从基础模型的snapshot里加载这个文件。

已经OK了,感谢!但是要部署模型,基础模型到时候他如何去读取,只拷贝output里面的文件应该是不行的吧

WingsLong commented 8 months ago

还有就是微调了几条数据,貌似没啥效果,还是基础模型的输出,训练的数据没有生效

jklj077 commented 8 months ago

但是要部署模型,基础模型到时候他如何去读取,只拷贝output里面的文件应该是不行的吧

基础模型的文件也需要复制的。output里面文件有个adapter_config.json,其中有base_model_name_or_path字段,改成相应的路径应该就可以。

微调了几条数据,貌似没啥效果

LoRA/QLoRA不同数据微调的实际效果不确定,建议您调整下训练超参数(比如轮数、学习率)或者LoRA的超参数试试了,还不奏效也可以试试增大数据量。

WingsLong commented 8 months ago

但是要部署模型,基础模型到时候他如何去读取,只拷贝output里面的文件应该是不行的吧

基础模型的文件也需要复制的。output里面文件有个adapter_config.json,其中有base_model_name_or_path字段,改成相应的路径应该就可以。

微调了几条数据,貌似没啥效果

LoRA/QLoRA不同数据微调的实际效果不确定,建议您调整下训练超参数(比如轮数、学习率)或者LoRA的超参数试试了,还不奏效也可以试试增大数据量。

好的,谢谢大佬解答,我再琢磨琢磨

Mistsink commented 1 month ago

您好,我在微调Gemma时也遇到了这种问题,我还在Gemma里面添加了自定义的网络结构,我直接使用的Huggingface的Trainer工具,使用peft和deepspeed stage 2来进行训练,保存也是trainer默认的配置。不知道该如何加载来推理了。

image

这是我保存的目录,方便的话可以给个示例吗或者相关的文档吗? 不胜感激!