Closed chenzk1993 closed 11 months ago
对 最简单的方法就是padding 然后你在rollout时算出的reward 记得在padding的位置要加一个mask过滤掉
好的,非常感谢!
positive example也不会参与到generator中,好像和rollout的reward没有关系,因为reward是根据生成的句子来计算的。然后,generator生成的句子是没有ground truth的,reward是算到end token那里后面的就mask掉么?
比如我要用实际的新闻语料作为positive example,但新闻中的每句话长度不可能一样,此时应该把短的语句填充到和最长的长度一样吗?