Closed ivanzfb closed 7 months ago
DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template,所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。
DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template,所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。
我将prompt template更改为deepseek-coder-7b-v1.5的了,其他基本没变
DeepSeek-7B-chat和deepseek-coder-7b-v1.5使用的是完全不同的prompt template,所以DeepSeek-7B-chat的微调代码不适用于deepseek-coder-7b-v1.5。
我将prompt template更改为deepseek-coder-7b-v1.5的了,其他基本没变
具体代码没有测试过,我们无法给出具体原因。本仓库只提供了DeepSeek-7B-chat的微调教程,如果您有兴趣可以给本仓库提交deepseek-coder的pr。
参考DeepSeek-7B-chat Lora 微调脚本微调deepseek-coder-7b-v1.5版本模型 将prompt更改为deepseek-coder-7b-v1.5默认
训练参数:
batch size:2 epoch:2 gradient_accumulation_steps=2, save_steps=20, learning_rate=1e-4
lora参数:
target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1
loss在第2个step就降为了0,保存第20步模型进行推理时生成内容全是感叹号。
推理代码: