Closed johnsongwx closed 1 year ago
老师们好, 想请教下,咱们的Chinese-ELECTRA的Generator部分在预训练过程中是以传统的MLM还是改进后的全词掩码WWM来进行预训练的呢? 谢谢!
看到closed的issue里有过相关提问,了解到使用的是MLM。 想请教下老师们,因为一直有关注老师们的工作,看到在BERT、RoBERTa等模型老师们在中文语料库上预训练时,都使用了WWM,为什么老师们在中文语料库上开展ELECTRA模型的预训练时没有使用WWM呢?
此处实现的是原版ELECTRA,并非是想把所有有用的方法都用在上面。
老师们好, 想请教下,咱们的Chinese-ELECTRA的Generator部分在预训练过程中是以传统的MLM还是改进后的全词掩码WWM来进行预训练的呢? 谢谢!