yskn67 / reading_papers

reading papers memorandum
MIT License
1 stars 0 forks source link

Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results #5

Open yskn67 opened 4 years ago

yskn67 commented 4 years ago

一言でいうと

以前半教師あり学習として提案されていたTemporal Ensemblingは学習モデルのアウトプットのEMAをteacher modelとしてconsistency costを計算していた。 この方法だと1epochごとにしかteacher modelを更新できないので学習モデルのパラメータのEMAをteacher modelとしてconsistency costを計算するようにした。 これにより、より早く堅牢なモデルを獲得することができた。

スクリーンショット 2020-01-23 4 59 27 スクリーンショット 2020-01-23 4 59 37

EMAにおけるdecayには0.99~0.999程度が良い。 consistency costとしてKL-divergenceを試したが、MSEのほうが良かったらしい。

論文リンク

https://arxiv.org/abs/1703.01780

著者/所属機関

投稿日付(yyyy/MM/dd)

2017

概要

新規性・差分

手法

結果

コメント