Open dt-yuhui opened 4 months ago
vocab.txt里存在空行(344&345),在tokenizer.get_vocab()的结果中,两行空行只有一个‘\u2028’对应,导致词汇表和tokenize结果的'input_ids'对应不上,不知作者在做预训练的时候是否把空行去除了
vocab.txt里存在空行(344&345),在tokenizer.get_vocab()的结果中,两行空行只有一个‘\u2028’对应,导致词汇表和tokenize结果的'input_ids'对应不上,不知作者在做预训练的时候是否把空行去除了