trueto / medbert

本项目开源硕士毕业论文“BERT模型在中文临床自然语言处理中的 应用探索与研究”相关模型
Apache License 2.0
96 stars 12 forks source link

vocab.txt里存在空行 #6

Open dt-yuhui opened 4 months ago

dt-yuhui commented 4 months ago

vocab.txt里存在空行(344&345),在tokenizer.get_vocab()的结果中,两行空行只有一个‘\u2028’对应,导致词汇表和tokenize结果的'input_ids'对应不上,不知作者在做预训练的时候是否把空行去除了