issues
search
OpenLMLab
/
MOSS-RLHF
MOSS-RLHF
Apache License 2.0
1.3k
stars
101
forks
source link
Part2中meta dataset的生成
#51
Open
yata0
opened
9 months ago
yata0
commented
9 months ago
meta dataset S是怎么产生的,都是基于最新的策略重新采样出来吗?
相关的超参是怎么设置的,T,n, m
Ablustrund
commented
8 months ago
我们的motivation是在分布发生偏移时,rm能够通过metalearning从新纠正回来。meta dataset是根据最新的policy model采样得到的。因为此时你需要继续增加policy model的效果,所以需要rm重新恢复对这个policy model输出空间的打分效果。
温度我们稍微开大一点,为了使meta dataset的response更有差异,meta dataset中每个prompt有多个response。