Closed ky941122 closed 3 years ago
embeddings = embeddings[indices_of_keep_tokens]
embeddings = embeddings[indices_of_keep_tokens]
@bojone 多谢,另外,我发现您在使用频率超过1000的token以外,还额外添加了前258个token以及最后100个token。请问一下这300多个token是些什么?
embeddings = embeddings[indices_of_keep_tokens]
@bojone 多谢,另外,我发现您在使用频率超过1000的token以外,还额外添加了前258个token以及最后100个token。请问一下这300多个token是些什么?
这我也不知道是啥,但是我发现不加这些token会报错。
您好,我正在模仿您的做法缩减mBart的大小,您提供的更新tokenizer的代码非常详尽且有效,想请问您能否顺便提供一下后续根据新的tokenizer删除原始模型中无用的embedding的代码?十分感谢。