Closed qoo33456 closed 4 years ago
之前bert-wwm可以改善原先bert預訓練mask單個字的問題,全詞遮蔽(wwm)可以使模型學到更多詞與詞的關係。 目前這一個版本的electra在預訓練的時候是否也有使用全詞遮蔽(wwm)?
这个版本不包含wwm相关改动。
那後續會有加入wwm pretrain的計畫嗎? 感覺有機會再更提升
这个我暂时不能保证会有update。如果感兴趣的话可以自行尝试一下。
之前bert-wwm可以改善原先bert預訓練mask單個字的問題,全詞遮蔽(wwm)可以使模型學到更多詞與詞的關係。 目前這一個版本的electra在預訓練的時候是否也有使用全詞遮蔽(wwm)?