Open yskn67 opened 4 years ago
以前半教師あり学習として提案されていたTemporal Ensemblingは学習モデルのアウトプットのEMAをteacher modelとしてconsistency costを計算していた。 この方法だと1epochごとにしかteacher modelを更新できないので学習モデルのパラメータのEMAをteacher modelとしてconsistency costを計算するようにした。 これにより、より早く堅牢なモデルを獲得することができた。
EMAにおけるdecayには0.99~0.999程度が良い。 consistency costとしてKL-divergenceを試したが、MSEのほうが良かったらしい。
https://arxiv.org/abs/1703.01780
2017
一言でいうと
以前半教師あり学習として提案されていたTemporal Ensemblingは学習モデルのアウトプットのEMAをteacher modelとしてconsistency costを計算していた。 この方法だと1epochごとにしかteacher modelを更新できないので学習モデルのパラメータのEMAをteacher modelとしてconsistency costを計算するようにした。 これにより、より早く堅牢なモデルを獲得することができた。
EMAにおけるdecayには0.99~0.999程度が良い。 consistency costとしてKL-divergenceを試したが、MSEのほうが良かったらしい。
論文リンク
https://arxiv.org/abs/1703.01780
著者/所属機関
投稿日付(yyyy/MM/dd)
2017
概要
新規性・差分
手法
結果
コメント