OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.3k stars 101 forks source link

RM数据构造 #55

Open tcxia opened 8 months ago

tcxia commented 8 months ago

您好,想问下,论文中说选择10个不同的RM模型对同一个数据打分,这10个RM模型的选择标准是什么?

refrain-wbh commented 7 months ago

十个模型仅仅只有随机种子不同,利用随机性获得一个平均和稳定的reward model打分。