THUDM / ChatGLM2-6B

ChatGLM2-6B: An Open Bilingual Chat LLM | 开源双语对话语言模型
Other
15.73k stars 1.85k forks source link

[Help] <title>关于微调ptuning不能达到训练集的效果,且不破坏原有结构实验 #674

Open Bingoyww opened 7 months ago

Bingoyww commented 7 months ago

Is there an existing issue for this?

Current Behavior

1)跑通广告数据集的代码; 2)运行自己数据集; 3)发现破坏原有结构的,即问些普通的问题,回答错误; 4)issues 里有人说是--learning_rate 1e-4,太大了,要改为--learning_rate 1e-5,运行3万epoch; 5)已运行了3万次,确实没有破坏结构,但还是达不到训练集的效果,比如在1.5万次时,可以做到“question:哪个组适用于小于13kg的婴儿床的组。 answer:适用于小于13kg的婴儿床的组是A组。”,训练集为“适用于小于13kg的婴儿床的组是C组。”,之后的1.5万次,很难训练成功。其他的问答集也如此。

Expected Behavior

No response

Steps To Reproduce

请问有什么方法,让大模型拟合问答集。

Environment

- OS:
- Python:
- Transformers:
- PyTorch:
- CUDA Support (`python -c "import torch; print(torch.cuda.is_available())"`) :

Anything else?

No response