Open wangqiangneu opened 4 years ago
对CMLM的改进,两个点: 1. CMLM训练时只能训一部分subset (跟bert一样,从这个角度看,跟#25加速bert训练的目标是一致的); 2. CMLM的解码算法比较笨,启发式且必须解码到规定的最大迭代次数上。
DisCo的做法:
简介
对CMLM的改进,两个点: 1. CMLM训练时只能训一部分subset (跟bert一样,从这个角度看,跟#25加速bert训练的目标是一致的); 2. CMLM的解码算法比较笨,启发式且必须解码到规定的最大迭代次数上。
DisCo的做法:
有意思的点
论文信息
总结