对RoBERTa-wwm-ext-large模型的疑问

ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

https://ieeexplore.ieee.org/document/9599397

Apache License 2.0

9.69k stars 1.39k forks source link

Closed AnShengqiang closed 4 years ago

AnShengqiang commented 4 years ago

您好！在使用RoBERTa-wwm-ext-large模型的时候，我发现似乎缺少了MLM层的参数（预测句子中某个字几乎是乱的）。

请问确实是缺少了这层参数吗？能否发布添加了这层参数的RoBERTa-wwm-ext-large模型呢？

ymcui commented 4 years ago

是的，我们没有保存这部分权重。如果是接着这个checkpoint继续训练，这部分权重影响不是很大，全连接的部分实际上用的是embedding的matrix，具体可参考原版run_pretraining.py的代码。

AnShengqiang commented 4 years ago

是的，我们没有保存这部分权重。如果是接着这个checkpoint继续训练，这部分权重影响不是很大，全连接的部分实际上用的是embedding的matrix，具体可参考原版run_pretraining.py的代码。

好的，谢谢！

sunyilgdx commented 4 years ago

@AnShengqiang 请问一下如何查看模型有没有MLM层的参数呢？

AnShengqiang commented 4 years ago

@AnShengqiang 请问一下如何查看模型有没有MLM层的参数呢？

您好，我是做MLM任务的时候发现不准确，因此推断少了这一层的参数。

lwwlife commented 3 years ago

roberta_wwm_ext的torch版本，请问哪里能获取呀