linzehui / mRASP

165 stars 32 forks source link

是否支持蒙、藏、维等民族语翻译? #21

Open HuihuiChyan opened 3 years ago

HuihuiChyan commented 3 years ago

作者您好,感谢您的工作!有几个问题请教一下您:

  1. 是否支持蒙文(内蒙)、藏文、维文的翻译?
  2. mRASP的哈萨克文是西里尔字母的,还是阿拉伯字母的? 感谢您在百忙之中解答我的问题!
PANXiao1994 commented 3 years ago
  1. 预训练阶段没有包含这几个语言,所以不支持,可以自己通过merge_vocab的操作加语言
  2. kk是西里尔字母的 image
HuihuiChyan commented 3 years ago

那请问merge_vocab之后,是否embeding矩阵和softmax层需要重新训练呢? 如果需要重新训练的话,是不是可以直接用一个小的词表代替原来的词表,以减少参数?

PANXiao1994 commented 3 years ago

merge以后,新加入的token对应的vector是随机初始化的,其余的还是用预训练模型的。softmax层和embedding是共享的。直接重新换词表理论上应该也是可行的