20-ICLR(reviewing)-ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

简介

用discriminator代替BERT中的MLM generator. 具体方法是，用一个small MLM generator把输入x改造成$\hat{x}$ (随机mask 15%，用这个generator生成masked token，有可能恢复原样，有可能跟原始输入不同)。用discriminator去二分类$\hat{x}$中的所有token，是不是原始的输入。训练时generator和discriminator联合学习（word embedding是shared，其他参数不共享）。然后finetuning时，只使用discriminator，不用generator了。

有意思的点
- 训练效率高。BERT每次只对masked 15%的token优化，而ELECTRA每次从所有token学习
- 尽管每个training step里ELECTRA的FLOPS高于BERT（因为还需要一个generator去构造$\hat{x}$），但是在相同FLOPS条件下ELECTRA的效果要好很多（可以理解呀，ELECTRA相当于每个batch的samples更多，gradient应该是更稳定的，学的也就更快了，怀疑ELECTRA是不是可以用更大的lr去训）
- ELECTRA本质是跟CBOW with negative sampling很像，都是根据上下文推断中心词/masked token。但是用二分类正负样本去学，而不是直接学generate
- ELECTRA虽然形式上像GAN，都有generator和discriminator，但是这里头generator是MLE训的，不需要discriminator回传gradient，好训
- 文章中大部分报的是dev set上的结果，提到finetuning的时候对seed很敏感，方差在0.4 GLUE左右，因此很有必要多跑几次取平均。而test set上的结果，是那个leading borad上，在测试集上只跑一次，而且用了很多刷分的tricks(e.g. ensemble，以及针对具体任务的调整)

论文信息

Author: Stanford
Paper

总结

基于discriminative的pre-training目测要大火了
NMT里考虑增加一个discriminator，但是不要sentence-level的判断，应该粒度更小一点

wangqiangneu / MT-PaperReading

20-ICLR(reviewing)-ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS #25

简介

论文信息

总结