GanjinZero / RRHF

[NIPS2023] RRHF & Wombat
780 stars 49 forks source link

dummy_target的请教 #45

Closed xunfengzhangyang closed 8 months ago

xunfengzhangyang commented 9 months ago

感谢您的工作。以及请教您几个问题 1b80e2fa13de06eb8388050ed79b2c4 dummy_target的作用是什么呢,query_target操作之后比query_input_id少了最后一个token,拼接的时候把dummy_target拼到res_input_id之后,这样的话labels和input_id不是就没有对齐了吗,比如input_id中的回复在第150到180的位置,它对应的内容在labels实际上是第149到179,这样后续处理loss不会有问题吗

GanjinZero commented 9 months ago

这样做不刚好是input id的response对应的label是他下一个位置

xiayouhong commented 8 months ago

微信图片_20231014152227 我在调试的时候看到对应的input_id和label是这样的,所以没理解您上面说的句话,您能给我举个例子吗

这样做不刚好是input id的response对应的label是他下一个位置

GanjinZero commented 8 months ago

prompt不用预测;response预测他的一个token是什么;eos不用预测。

shoyua commented 8 months ago

微信图片_20231014152227 我在调试的时候看到对应的input_id和label是这样的,所以没理解您上面说的句话,您能给我举个例子吗

这样做不刚好是input id的response对应的label是他下一个位置

因为label相比input提前了一个位置,在gather_logits_labels里面是按照label去取对应位置的logits,也就是说对于一条response,第i个位置的logits预测的输出其实对应的是response里面第i+1位置token的id

xiayouhong commented 8 months ago

感谢