ZhuiyiTechnology / WoBERT

以词为基本单位的中文BERT
Apache License 2.0
458 stars 70 forks source link

vocab问题 #18

Open cxj01 opened 2 years ago

cxj01 commented 2 years ago

在与预训练时,加载了roberta的权重,但是又精简了vocab,那么同样的字tokenizer.encode 的结果和 原始roberta encode结果是不一样的,这样是不是会增加收敛的时间?如果保留roberta的vocab,将新增的词放在词表的后面,是不是会收敛快些?