Facico / Chinese-Vicuna

Chinese-Vicuna: A Chinese Instruction-following LLaMA-based Model —— 一个中文低资源的llama+lora方案,结构参考alpaca
https://github.com/Facico/Chinese-Vicuna
Apache License 2.0
4.15k stars 421 forks source link

后续会考虑加入RLHF吗 #14

Open yuxuan2015 opened 1 year ago

Facico commented 1 year ago

@yuxuan2015 之前我们用OpenAssistant跑过RLHF,这一块如果没有高质量的数据会损害模型的能力。由于单纯用instruction tuning也可以有比较好的对话效果,RLHF的作用更多在于安全生成,惩罚一些难以在代码层面后处理的不良输出,或者是在归一参数这块(比如我们generate的时候有时效果不好需要设置一下)。

如果后续有高质量的数据我们会考虑引入。

hijkzzz commented 1 year ago

Reward Model不够好的话会损耗模型性能。这是因为你们用来finetune的数据是OpenAI的经过RLHF等处理后的高质量输出,而OpenAssistant RLHF的数据质量远不如这个,所以起到反作用。如果从零开始研发模型,没有OpenAI的标准答案,那么充分的alignment还是很有意义的。

@yuxuan2015 之前我们用OpenAssistant跑过RLHF,这一块如果没有高质量的数据会损害模型的能力。由于单纯用instruction tuning也可以有比较好的对话效果,RLHF的作用更多在于安全生成,惩罚一些难以在代码层面后处理的不良输出,或者是在归一参数这块(比如我们generate的时候有时效果不好需要设置一下)。

如果后续有高质量的数据我们会考虑引入。