参考DeepSeek-7B-chat Lora 微调脚本微调deepseek-coder-7b-v1.5版本模型，生成的内容全是感叹号

datawhalechina / self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型，更适合中国宝宝的部署教程

Apache License 2.0

8.24k stars 986 forks source link

参考DeepSeek-7B-chat Lora 微调脚本微调deepseek-coder-7b-v1.5版本模型，生成的内容全是感叹号 #48

Closed ivanzfb closed 7 months ago

ivanzfb commented 7 months ago

参考DeepSeek-7B-chat Lora 微调脚本微调deepseek-coder-7b-v1.5版本模型将prompt更改为deepseek-coder-7b-v1.5默认

训练参数：

batch size：2 epoch：2 gradient_accumulation_steps=2, save_steps=20, learning_rate=1e-4

lora参数：

target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1

loss在第2个step就降为了0，保存第20步模型进行推理时生成内容全是感叹号。

推理代码：

KMnO4-zx commented 7 months ago

DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template，所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。

ivanzfb commented 7 months ago

DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template，所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。

我将prompt template更改为deepseek-coder-7b-v1.5的了，其他基本没变

KMnO4-zx commented 7 months ago

DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template，所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。

我将prompt template更改为deepseek-coder-7b-v1.5的了，其他基本没变

具体代码没有测试过，我们无法给出具体原因。本仓库只提供了DeepSeek-7B-chat的微调教程，如果您有兴趣可以给本仓库提交deepseek-coder的pr。