Ethan-yt / guwenbert

GuwenBERT: 古文预训练语言模型(古文BERT) A Pre-trained Language Model for Classical Chinese (Literary Chinese)
Apache License 2.0
493 stars 40 forks source link

添加新的标签 #19

Closed CDDNB closed 1 year ago

CDDNB commented 1 year ago

您好!请问如何添加新的标签?我希望增加新的标签,如[POS] [NEG],但是添加在vocab.txt里tokenizer还是无法识别,只能读取成'[' '[UNK]' ']'这样。而且如果增加了vocab.txt的行数,将token输入模型时还会报错index超界。

CDDNB commented 1 year ago

vocab.txt里似乎并没有预留未使用的位置