Closed AnShengqiang closed 4 years ago
是的,我们没有保存这部分权重。 如果是接着这个checkpoint继续训练,这部分权重影响不是很大,全连接的部分实际上用的是embedding的matrix,具体可参考原版run_pretraining.py的代码。
是的,我们没有保存这部分权重。 如果是接着这个checkpoint继续训练,这部分权重影响不是很大,全连接的部分实际上用的是embedding的matrix,具体可参考原版run_pretraining.py的代码。
好的,谢谢!
@AnShengqiang 请问一下如何查看模型有没有MLM层的参数呢?
@AnShengqiang 请问一下如何查看模型有没有MLM层的参数呢?
您好,我是做MLM任务的时候发现不准确,因此推断少了这一层的参数。
roberta_wwm_ext的torch版本,请问哪里能获取呀
您好!在使用RoBERTa-wwm-ext-large模型的时候,我发现似乎缺少了MLM层的参数(预测句子中某个字几乎是乱的)。
请问确实是缺少了这层参数吗?能否发布添加了这层参数的RoBERTa-wwm-ext-large模型呢?