Open tcxia opened 8 months ago
您好,想问下,论文中说选择10个不同的RM模型对同一个数据打分,这10个RM模型的选择标准是什么?
十个模型仅仅只有随机种子不同,利用随机性获得一个平均和稳定的reward model打分。
您好,想问下,论文中说选择10个不同的RM模型对同一个数据打分,这10个RM模型的选择标准是什么?