目标文本标签处理有误（T5-Pegasus模型）

您好，

我在使用T5-Pegasus模型时遇到了一个问题，涉及到目标文本标签处理的部分。根据代码分析，utils.py文件里的train_collate函数中tgt_tokenized在进行编码后没有起始符号，但在label这行代码中额外去掉了目标文本的第一个token（非起始token）： `tgt_tokenized = self.tokenizer( tgt, max_length=self.args.max_target_length, padding=True, return_tensors='pt', truncation='longest_first')

decoder_attention_mask = tgt_tokenized['attention_mask'][:, :-1] decoder_input_ids = tgt_tokenized['input_ids'][:, :-1]

labels = tgt_tokenized['input_ids'][:, 1:].clone()`

这个问题可能导致模型训练出现偏差。 transformers==4.12.0

renmada / t5-pegasus-pytorch

目标文本标签处理有误（T5-Pegasus模型） #72