OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.3k stars 101 forks source link

Part2中meta dataset的生成 #51

Open yata0 opened 9 months ago

yata0 commented 9 months ago
  1. meta dataset S是怎么产生的,都是基于最新的策略重新采样出来吗?
  2. 相关的超参是怎么设置的,T,n, m
Ablustrund commented 8 months ago
  1. 我们的motivation是在分布发生偏移时,rm能够通过metalearning从新纠正回来。meta dataset是根据最新的policy model采样得到的。因为此时你需要继续增加policy model的效果,所以需要rm重新恢复对这个policy model输出空间的打分效果。
  2. 温度我们稍微开大一点,为了使meta dataset的response更有差异,meta dataset中每个prompt有多个response。