关于rm中lm loss计算的疑问

OpenLMLab / MOSS-RLHF

MOSS-RLHF

Apache License 2.0

1.27k stars 98 forks source link

Open DZ9 opened 8 months ago

DZ9 commented 8 months ago

在reward_trainer.py这里，删除了lm_logits中最后一个token的概率分布，但是在下面的label里面是删除了第一个词，想问下这里是怎么对应的呢

refrain-wbh commented 5 months ago

这是因为，logit是输出，而label or loss mask是输入。decoder架构（例如llama）预测next token，因此输入的token和输出的next token是对应关系。