训练效果怎么样 - Githubissues

l294265421 / alpaca-rlhf

Finetuning LLaMA with RLHF (Reinforcement Learning with Human Feedback) based on DeepSpeed Chat

MIT License

106 stars 13 forks source link

作者，你好，进行RLHF后，模型效果怎么样的，在什么方面上会有提升？

现在只是简单测试一下，从测试的例子看，RLHF训练之后，模型的输出似乎更符合人的意图了；但大部分情况下，针对一些简单的问题，没有变化。下面是两个例子（为了方便对比，解码用的贪心搜索）：

示例一：RLHF训练后，对人的意图理解更为准确 rlhf前：

rlhf后：

示例二：输出一样 rlhf前：

rlhf后：

从目前训练过程的reward等指标来看，还有很大的优化空间。不过，以现在的资源直接调LLaMA 7b，迭代很慢，正在切换回小一些的模型去实验，比如opt 1.3b。

l294265421 / alpaca-rlhf