Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

一言でいうと

以前半教師あり学習として提案されていたTemporal Ensemblingは学習モデルのアウトプットのEMAをteacher modelとしてconsistency costを計算していた。この方法だと1epochごとにしかteacher modelを更新できないので学習モデルのパラメータのEMAをteacher modelとしてconsistency costを計算するようにした。これにより、より早く堅牢なモデルを獲得することができた。

スクリーンショット 2020-01-23 4 59 27 スクリーンショット 2020-01-23 4 59 37

EMAにおけるdecayには0.99~0.999程度が良い。 consistency costとしてKL-divergenceを試したが、MSEのほうが良かったらしい。

論文リンク

https://arxiv.org/abs/1703.01780

著者/所属機関

Antti Tarvainen(The Curious AI Company and Aalto University)
Harri Valpola(The Curious AI Company)

投稿日付(yyyy/MM/dd)

2017

yskn67 / reading_papers

Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results #5

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント