Closed bojone closed 4 years ago
现在很多研究都表明MLM其实也是一个相当有用的语言模型,并不是纯粹的只有预训练的左右了,所以能不能麻烦一下把MLM的权重补上?
而且我最不能理解的就是,要是扔掉MLM的权重也就算了,为啥还要随机初始化一个放在那里,这不是容易误导人么?
你能不能理解与我无关。 本身这个开源项目的目的也不是用来二次pre-train和MLM预测,没有义务一定要open-source。 你完全可以用其他的开源版本,例如CLUE的RoBERTa、UER版本的RoBERTa,没必要每次一不和你心意就来argue。
现在很多研究都表明MLM其实也是一个相当有用的语言模型,并不是纯粹的只有预训练的左右了,所以能不能麻烦一下把MLM的权重补上?
而且我最不能理解的就是,要是扔掉MLM的权重也就算了,为啥还要随机初始化一个放在那里,这不是容易误导人么?