是否支持蒙、藏、维等民族语翻译？

linzehui / mRASP

165 stars 32 forks source link

Open HuihuiChyan opened 3 years ago

HuihuiChyan commented 3 years ago

作者您好，感谢您的工作！有几个问题请教一下您：

PANXiao1994 commented 3 years ago

HuihuiChyan commented 3 years ago

那请问merge_vocab之后，是否embeding矩阵和softmax层需要重新训练呢？如果需要重新训练的话，是不是可以直接用一个小的词表代替原来的词表，以减少参数？

PANXiao1994 commented 3 years ago

merge以后，新加入的token对应的vector是随机初始化的，其余的还是用预训练模型的。softmax层和embedding是共享的。直接重新换词表理论上应该也是可行的