Open DZ9 opened 9 months ago
在reward_trainer.py这里,删除了lm_logits中最后一个token的概率分布,但是在下面的label里面是删除了第一个词,想问下这里是怎么对应的呢
这是因为,logit是输出,而label or loss mask是输入。decoder架构(例如llama)预测next token,因此输入的token和输出的next token是对应关系。
在reward_trainer.py这里,删除了lm_logits中最后一个token的概率分布,但是在下面的label里面是删除了第一个词,想问下这里是怎么对应的呢