datawhalechina / self-llm

《开源大模型食用指南》基于Linux环境快速部署开源大模型,更适合中国宝宝的部署教程
Apache License 2.0
8.24k stars 986 forks source link

参考DeepSeek-7B-chat Lora 微调脚本微调deepseek-coder-7b-v1.5版本模型,生成的内容全是感叹号 #48

Closed ivanzfb closed 7 months ago

ivanzfb commented 7 months ago

参考DeepSeek-7B-chat Lora 微调脚本微调deepseek-coder-7b-v1.5版本模型 将prompt更改为deepseek-coder-7b-v1.5默认

训练参数:

batch size:2 epoch:2 gradient_accumulation_steps=2, save_steps=20, learning_rate=1e-4

lora参数:

target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1

loss在第2个step就降为了0,保存第20步模型进行推理时生成内容全是感叹号。

推理代码:

图片

KMnO4-zx commented 7 months ago

DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template,所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。

ivanzfb commented 7 months ago

DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template,所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。

我将prompt template更改为deepseek-coder-7b-v1.5的了,其他基本没变

KMnO4-zx commented 7 months ago

DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template,所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。

我将prompt template更改为deepseek-coder-7b-v1.5的了,其他基本没变

具体代码没有测试过,我们无法给出具体原因。本仓库只提供了DeepSeek-7B-chat的微调教程,如果您有兴趣可以给本仓库提交deepseek-coder的pr。