renmada / t5-pegasus-pytorch

401 stars 61 forks source link

目标文本标签处理有误(T5-Pegasus模型) #72

Open yudi6 opened 1 year ago

yudi6 commented 1 year ago

您好,

我在使用T5-Pegasus模型时遇到了一个问题,涉及到目标文本标签处理的部分。根据代码分析,utils.py文件里的train_collate函数中tgt_tokenized在进行编码后没有起始符号,但在label这行代码中额外去掉了目标文本的第一个token(非起始token): `tgt_tokenized = self.tokenizer( tgt, max_length=self.args.max_target_length, padding=True, return_tensors='pt', truncation='longest_first')

decoder_attention_mask = tgt_tokenized['attention_mask'][:, :-1] decoder_input_ids = tgt_tokenized['input_ids'][:, :-1]

labels = tgt_tokenized['input_ids'][:, 1:].clone()`

这个问题可能导致模型训练出现偏差。 transformers==4.12.0