Open applepieiris opened 1 year ago
在finetune.py内,def data_collator的第38行生成labels时,作者的做法是: labels = ( [-100] * (seq_len - 1) + ids[(seq_len - 1) :] + [-100] * (longest - ids_l) ) 我怎么觉得这里有点问题?labels不应该是target_sequence[start+1:]吗,我理解这里ids[seq_len-1]还属于source sequence的最后一个token,其实更应该是target sequence的第二个字符? 有人觉得这里会有疑问吗?
labels = ( [-100] * (seq_len - 1) + ids[(seq_len - 1) :] + [-100] * (longest - ids_l) )
请假一个问题,data_collator里不需要实现attention mask么?
大佬您好,请问您解决了吗?我也想不明白
在finetune.py内,def data_collator的第38行生成labels时,作者的做法是:
labels = ( [-100] * (seq_len - 1) + ids[(seq_len - 1) :] + [-100] * (longest - ids_l) )
我怎么觉得这里有点问题?labels不应该是target_sequence[start+1:]吗,我理解这里ids[seq_len-1]还属于source sequence的最后一个token,其实更应该是target sequence的第二个字符? 有人觉得这里会有疑问吗?