bojone / t5_in_bert4keras

整理一下在keras中使用T5模型的要点
171 stars 28 forks source link

如何从原始mT5模型中抽取出新的tokenizer对应的embedding? #7

Closed ky941122 closed 3 years ago

ky941122 commented 3 years ago

您好,我正在模仿您的做法缩减mBart的大小,您提供的更新tokenizer的代码非常详尽且有效,想请问您能否顺便提供一下后续根据新的tokenizer删除原始模型中无用的embedding的代码?十分感谢。

bojone commented 3 years ago

embeddings = embeddings[indices_of_keep_tokens]

ky941122 commented 3 years ago

embeddings = embeddings[indices_of_keep_tokens]

@bojone 多谢,另外,我发现您在使用频率超过1000的token以外,还额外添加了前258个token以及最后100个token。请问一下这300多个token是些什么?

bojone commented 3 years ago

embeddings = embeddings[indices_of_keep_tokens]

@bojone 多谢,另外,我发现您在使用频率超过1000的token以外,还额外添加了前258个token以及最后100个token。请问一下这300多个token是些什么?

这我也不知道是啥,但是我发现不加这些token会报错。