Open cxj01 opened 2 years ago
在与预训练时,加载了roberta的权重,但是又精简了vocab,那么同样的字tokenizer.encode 的结果和 原始roberta encode结果是不一样的,这样是不是会增加收敛的时间?如果保留roberta的vocab,将新增的词放在词表的后面,是不是会收敛快些?
在与预训练时,加载了roberta的权重,但是又精简了vocab,那么同样的字tokenizer.encode 的结果和 原始roberta encode结果是不一样的,这样是不是会增加收敛的时间?如果保留roberta的vocab,将新增的词放在词表的后面,是不是会收敛快些?