Open wangqiangneu opened 5 years ago
hmm,这篇论文一个创新点是,teacher是会不断更新,这样ensemble的结果会不断变好,之前很多工作ensemble的结果是固定不变的
hmm,这篇论文一个创新点是,teacher是会不断更新,这样ensemble的结果会不断变好,之前很多工作ensemble的结果是固定不变的
其实之前已经有不少类似的online ensemble工作了,比如[1]这种。只不过这些方法基本都没在NMT任务上被用过~
[1] Knowledge Distillation by On-the-Fly Native Ensemble, NIPS 2018
你的born-again是什么模式呢?
你的born-again是什么模式呢?
Born Again Neural Networks,之前别人的工作,简单说就是一代一代的训练。先训练第一代模型,用他作为teacher去教下一代,一直迭代下去 感觉思路很有趣~
简介
跟mutual learning差不多,不一样的是mutual learning是many-to-many的学,这里是先通过many构造出一个ensemble model,再用这个ensemble去教many。教的过程用了根据teacher是否足够好进行自适应的distillation,也是很常见的操作。
论文信息
总结