Open yuxuan2015 opened 1 year ago
Reward Model不够好的话会损耗模型性能。这是因为你们用来finetune的数据是OpenAI的经过RLHF等处理后的高质量输出,而OpenAssistant RLHF的数据质量远不如这个,所以起到反作用。如果从零开始研发模型,没有OpenAI的标准答案,那么充分的alignment还是很有意义的。
@yuxuan2015 之前我们用OpenAssistant跑过RLHF,这一块如果没有高质量的数据会损害模型的能力。由于单纯用instruction tuning也可以有比较好的对话效果,RLHF的作用更多在于安全生成,惩罚一些难以在代码层面后处理的不良输出,或者是在归一参数这块(比如我们generate的时候有时效果不好需要设置一下)。
如果后续有高质量的数据我们会考虑引入。
@yuxuan2015 之前我们用OpenAssistant跑过RLHF,这一块如果没有高质量的数据会损害模型的能力。由于单纯用instruction tuning也可以有比较好的对话效果,RLHF的作用更多在于安全生成,惩罚一些难以在代码层面后处理的不良输出,或者是在归一参数这块(比如我们generate的时候有时效果不好需要设置一下)。
如果后续有高质量的数据我们会考虑引入。