实时微调可以通过加入传统RL实现吗

yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)

MIT License

3.04k stars 369 forks source link

Open LIzhiqian-cassie opened 1 year ago

LIzhiqian-cassie commented 1 year ago

根据用户对话中收集的新数据不断update参数，并且要防止遗忘问题。但数据集每次是一些句子，总体不够多用于finetune。目前思路是设计一个reward model进行preference调参数，即传统强化学习RL？

想讨论具体有例子和实践方法