ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)
https://ieeexplore.ieee.org/document/9599397
Apache License 2.0
9.69k stars 1.39k forks source link

对RoBERTa-wwm-ext-large模型的疑问 #76

Closed AnShengqiang closed 4 years ago

AnShengqiang commented 4 years ago

您好!在使用RoBERTa-wwm-ext-large模型的时候,我发现似乎缺少了MLM层的参数(预测句子中某个字几乎是乱的)。

请问确实是缺少了这层参数吗?能否发布添加了这层参数的RoBERTa-wwm-ext-large模型呢?

ymcui commented 4 years ago

是的,我们没有保存这部分权重。 如果是接着这个checkpoint继续训练,这部分权重影响不是很大,全连接的部分实际上用的是embedding的matrix,具体可参考原版run_pretraining.py的代码。

AnShengqiang commented 4 years ago

是的,我们没有保存这部分权重。 如果是接着这个checkpoint继续训练,这部分权重影响不是很大,全连接的部分实际上用的是embedding的matrix,具体可参考原版run_pretraining.py的代码。

好的,谢谢!

sunyilgdx commented 4 years ago

@AnShengqiang 请问一下如何查看模型有没有MLM层的参数呢?

AnShengqiang commented 4 years ago

@AnShengqiang 请问一下如何查看模型有没有MLM层的参数呢?

您好,我是做MLM任务的时候发现不准确,因此推断少了这一层的参数。

lwwlife commented 3 years ago

roberta_wwm_ext的torch版本,请问哪里能获取呀