您好，我将bert-base-chinese换成了roberta-base，然后报错了

HarderThenHarder / transformers_tasks

⭐️ NLP Algorithms with transformers lib. Supporting Text-Classification, Text-Generation, Information-Extraction, Text-Matching, RLHF, SFT etc.

2.12k stars 377 forks source link

Hi，我已经将该问题修复。

您可以通过 pull 最新的代码来解决这个问题。

出现这个问题的原因：因为您使用了一个不需要 token_type_ids 的模型（roberta-base）。

在 Roberta 的 pretraining 过程中舍弃了 BERT 的 NSP（Next Sentence Prediction）任务，这导致 roberta tokenizer 不会再返还 token_type_id 这一属性。

因此，我在这里兼容了这种不需要 token_type_id 的模型输入，并在这里兼容了不同模型的数据转换格式。

HarderThenHarder / transformers_tasks