vocab问题 - Githubissues

ZhuiyiTechnology / WoBERT

以词为基本单位的中文BERT

Apache License 2.0

458 stars 70 forks source link

Open cxj01 opened 2 years ago

cxj01 commented 2 years ago

在与预训练时，加载了roberta的权重，但是又精简了vocab，那么同样的字tokenizer.encode 的结果和原始roberta encode结果是不一样的，这样是不是会增加收敛的时间？如果保留roberta的vocab，将新增的词放在词表的后面，是不是会收敛快些？