后续会考虑加入RLHF吗

Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案，结构参考alpaca

Apache License 2.0

4.15k stars 421 forks source link

Reward Model不够好的话会损耗模型性能。这是因为你们用来finetune的数据是OpenAI的经过RLHF等处理后的高质量输出，而OpenAssistant RLHF的数据质量远不如这个，所以起到反作用。如果从零开始研发模型，没有OpenAI的标准答案，那么充分的alignment还是很有意义的。

@yuxuan2015 之前我们用OpenAssistant跑过RLHF，这一块如果没有高质量的数据会损害模型的能力。由于单纯用instruction tuning也可以有比较好的对话效果，RLHF的作用更多在于安全生成，惩罚一些难以在代码层面后处理的不良输出，或者是在归一参数这块（比如我们generate的时候有时效果不好需要设置一下）。

如果后续有高质量的数据我们会考虑引入。

Facico / Chinese-Vicuna

后续会考虑加入RLHF吗 #14