l294265421 / alpaca-rlhf

Finetuning LLaMA with RLHF (Reinforcement Learning with Human Feedback) based on DeepSpeed Chat
https://88aeeb3aef5040507e.gradio.live/
MIT License
106 stars 13 forks source link

训练效果怎么样 #1

Closed Curious-chen closed 1 year ago

Curious-chen commented 1 year ago

作者,你好,进行RLHF后,模型效果怎么样的,在什么方面上会有提升?

l294265421 commented 1 year ago

作者,你好,进行RLHF后,模型效果怎么样的,在什么方面上会有提升?

现在只是简单测试一下,从测试的例子看,RLHF训练之后,模型的输出似乎更符合人的意图了;但大部分情况下,针对一些简单的问题,没有变化。下面是两个例子(为了方便对比,解码用的贪心搜索):

示例一:RLHF训练后,对人的意图理解更为准确 rlhf前: 图片

rlhf后: 图片

示例二:输出一样 rlhf前: 图片

rlhf后: 图片

从目前训练过程的reward等指标来看,还有很大的优化空间。不过,以现在的资源直接调LLaMA 7b,迭代很慢,正在切换回小一些的模型去实验,比如opt 1.3b。

l294265421 commented 1 year ago

作者,你好,进行RLHF后,模型效果怎么样的,在什么方面上会有提升?

优化了训练,RLHF训练的模型回答看起来更丰富一些,见readme

l294265421 commented 1 year ago

作者,你好,进行RLHF后,模型效果怎么样的,在什么方面上会有提升?

在readme里加了STF和RLHF模型的在线demo,可以直接体验对比