OpenLMLab / MOSS-RLHF

MOSS-RLHF
Apache License 2.0
1.3k stars 101 forks source link

论文中rm对比学习训练方法疑问 #45

Open yhhh777 opened 10 months ago

yhhh777 commented 10 months ago

hi请问论文中关于对比学习两种方式具体是怎么实现的呢,他们在学习时分别的正负例各是什么?看了论文还是不太理解,特别是Preference Difference中的公式看起来就是简单转置了一下。 最后问一下相关代码什么时候会开源呢?谢谢

yata0 commented 9 months ago

我也同问,想知道只是把choose和reject两种响应做对比吗,那么所有choose response及其增强都互为正例,然后正例和所有reject response及其增强都互为负例?

yata0 commented 9 months ago

@Ablustrund 麻烦回答下?

Ablustrund commented 8 months ago

@yata0 @yhhh777, 我们构建了一个新的数据集,这个数据集对于同一个prompt,采样得到多个respones。我们的meta目标是增加在这个数据集上对同一个prompt的多个responses的区分度。而打分的acc仍然来自于original的优化目标。所以两个loss其实长得很像。只不过一个是original的目标(good>bad),一个是meta的目标(response1 > response2)。

yata0 commented 8 months ago

@Ablustrund 谢谢你的回答。 这里是想问对比学习的一些细节。 在建模过程中,pairwise的数据为(x, good, bad), 然后我们对比学习的过程是将(x,good)拼接起来过两遍dropout得到的特征为正例,然后同batch中所有其他的(x,good)和(x,bad)得到的特征表达为负例吗

想知道一些这样具体建模的细节。另外就不太理解怎么直接对diff做对比学习。