微调chatglm后遗忘很严重

hikariming / chat-dataset-baseline

人工精调的中文对话数据集和一段chatglm的微调代码

1.13k stars 95 forks source link

Open nieallen opened 1 year ago

nieallen commented 1 year ago

您好，我用8900个单轮聊天数据微调chatglm，模型遗忘很严重。轮次多了，所有的回答都往微调数据的领域扯。但轮次少了，微调数据学不到，应该如何解决呢？

hikariming commented 1 year ago

我们这边微调的时候没有发现这个问题，只能说是chatglm确实调教得太好了。我们是lora大概32轮这样，我估计这个问题只有扩充数据集来解决了，我们最近拿到了新的算力资源，预计准备重启训练研究了

nieallen commented 1 year ago

我们这边微调的时候没有发现这个问题，只能说是chatglm确实调教得太好了。我们是lora大概32轮这样，我估计这个问题只有扩充数据集来解决了，我们最近拿到了新的算力资源，预计准备重启训练研究了

请问你们微调时候用了多少数据呢？32轮，在测试集上试过有没有过拟合？我感觉我5轮都会产生遗忘

hikariming commented 1 year ago

、没有发现过拟合捏

FrankWhh commented 1 year ago

loss降到多少？

nieallen commented 1 year ago

loss降到多少？

2.5左右