Part2中meta dataset的生成

OpenLMLab / MOSS-RLHF

MOSS-RLHF

Apache License 2.0

1.3k stars 101 forks source link

Open yata0 opened 9 months ago

yata0 commented 9 months ago

Ablustrund commented 8 months ago

我们的motivation是在分布发生偏移时，rm能够通过metalearning从新纠正回来。meta dataset是根据最新的policy model采样得到的。因为此时你需要继续增加policy model的效果，所以需要rm重新恢复对这个policy model输出空间的打分效果。
温度我们稍微开大一点，为了使meta dataset的response更有差异，meta dataset中每个prompt有多个response。