Open HuihuiChyan opened 3 years ago
作者您好,感谢您的工作!有几个问题请教一下您:
那请问merge_vocab之后,是否embeding矩阵和softmax层需要重新训练呢? 如果需要重新训练的话,是不是可以直接用一个小的词表代替原来的词表,以减少参数?
merge以后,新加入的token对应的vector是随机初始化的,其余的还是用预训练模型的。softmax层和embedding是共享的。直接重新换词表理论上应该也是可行的
作者您好,感谢您的工作!有几个问题请教一下您: