如何从原始mT5模型中抽取出新的tokenizer对应的embedding？

bojone / t5_in_bert4keras

整理一下在keras中使用T5模型的要点

171 stars 28 forks source link

Closed ky941122 closed 3 years ago

ky941122 commented 3 years ago

您好，我正在模仿您的做法缩减mBart的大小，您提供的更新tokenizer的代码非常详尽且有效，想请问您能否顺便提供一下后续根据新的tokenizer删除原始模型中无用的embedding的代码？十分感谢。

bojone commented 3 years ago

embeddings = embeddings[indices_of_keep_tokens]

ky941122 commented 3 years ago

embeddings = embeddings[indices_of_keep_tokens]

@bojone 多谢，另外，我发现您在使用频率超过1000的token以外，还额外添加了前258个token以及最后100个token。请问一下这300多个token是些什么？

bojone commented 3 years ago

embeddings = embeddings[indices_of_keep_tokens]

@bojone 多谢，另外，我发现您在使用频率超过1000的token以外，还额外添加了前258个token以及最后100个token。请问一下这300多个token是些什么？

这我也不知道是啥，但是我发现不加这些token会报错。