Open LIzhiqian-cassie opened 1 year ago
根据用户对话中收集的新数据不断update参数,并且要防止遗忘问题。 但数据集每次是一些句子,总体不够多用于finetune。目前思路是设计一个reward model进行preference调参数,即传统强化学习RL?
想讨论具体有例子和实践方法
根据用户对话中收集的新数据不断update参数,并且要防止遗忘问题。 但数据集每次是一些句子,总体不够多用于finetune。目前思路是设计一个reward model进行preference调参数,即传统强化学习RL?
想讨论具体有例子和实践方法