Open yhhh777 opened 10 months ago
我也同问,想知道只是把choose和reject两种响应做对比吗,那么所有choose response及其增强都互为正例,然后正例和所有reject response及其增强都互为负例?
@Ablustrund 麻烦回答下?
@yata0 @yhhh777, 我们构建了一个新的数据集,这个数据集对于同一个prompt,采样得到多个respones。我们的meta目标是增加在这个数据集上对同一个prompt的多个responses的区分度。而打分的acc仍然来自于original的优化目标。所以两个loss其实长得很像。只不过一个是original的目标(good>bad),一个是meta的目标(response1 > response2)。
@Ablustrund 谢谢你的回答。 这里是想问对比学习的一些细节。 在建模过程中,pairwise的数据为(x, good, bad), 然后我们对比学习的过程是将(x,good)拼接起来过两遍dropout得到的特征为正例,然后同batch中所有其他的(x,good)和(x,bad)得到的特征表达为负例吗
想知道一些这样具体建模的细节。另外就不太理解怎么直接对diff做对比学习。
hi请问论文中关于对比学习两种方式具体是怎么实现的呢,他们在学习时分别的正负例各是什么?看了论文还是不太理解,特别是Preference Difference中的公式看起来就是简单转置了一下。 最后问一下相关代码什么时候会开源呢?谢谢