hikariming / chat-dataset-baseline

人工精调的中文对话数据集和一段chatglm的微调代码
1.13k stars 95 forks source link

微调chatglm后遗忘很严重 #55

Open nieallen opened 1 year ago

nieallen commented 1 year ago

您好,我用8900个单轮聊天数据微调chatglm,模型遗忘很严重。轮次多了,所有的回答都往微调数据的领域扯。但轮次少了,微调数据学不到,应该如何解决呢?

hikariming commented 1 year ago

我们这边微调的时候没有发现这个问题,只能说是chatglm确实调教得太好了。我们是lora大概32轮这样,我估计这个问题只有扩充数据集来解决了,我们最近拿到了新的算力资源,预计准备重启训练研究了

nieallen commented 1 year ago

我们这边微调的时候没有发现这个问题,只能说是chatglm确实调教得太好了。我们是lora大概32轮这样,我估计这个问题只有扩充数据集来解决了,我们最近拿到了新的算力资源,预计准备重启训练研究了

请问你们微调时候用了多少数据呢?32轮,在测试集上试过有没有过拟合?我感觉我5轮都会产生遗忘

hikariming commented 1 year ago

、没有发现过拟合捏

FrankWhh commented 1 year ago

loss降到多少?

nieallen commented 1 year ago

loss降到多少?

2.5左右