论文中rm对比学习训练方法疑问

OpenLMLab / MOSS-RLHF

MOSS-RLHF

Apache License 2.0

1.3k stars 101 forks source link

论文中rm对比学习训练方法疑问 #45

Open yhhh777 opened 10 months ago

yhhh777 commented 10 months ago

hi请问论文中关于对比学习两种方式具体是怎么实现的呢，他们在学习时分别的正负例各是什么？看了论文还是不太理解，特别是Preference Difference中的公式看起来就是简单转置了一下。最后问一下相关代码什么时候会开源呢？谢谢

yata0 commented 9 months ago

我也同问，想知道只是把choose和reject两种响应做对比吗，那么所有choose response及其增强都互为正例，然后正例和所有reject response及其增强都互为负例？

yata0 commented 9 months ago

@Ablustrund 麻烦回答下？

Ablustrund commented 8 months ago

@yata0 @yhhh777, 我们构建了一个新的数据集，这个数据集对于同一个prompt，采样得到多个respones。我们的meta目标是增加在这个数据集上对同一个prompt的多个responses的区分度。而打分的acc仍然来自于original的优化目标。所以两个loss其实长得很像。只不过一个是original的目标（good>bad）,一个是meta的目标（response1 > response2）。

yata0 commented 8 months ago

@Ablustrund 谢谢你的回答。这里是想问对比学习的一些细节。在建模过程中，pairwise的数据为（x, good, bad）, 然后我们对比学习的过程是将（x,good）拼接起来过两遍dropout得到的特征为正例，然后同batch中所有其他的（x,good)和(x,bad)得到的特征表达为负例吗

想知道一些这样具体建模的细节。另外就不太理解怎么直接对diff做对比学习。