An Empirical Study of Training Self-Supervised Visual Transformers

e4exp commented 3 years ago

https://arxiv.org/abs/2104.02057
2021

この論文では、新しい手法を説明するものではありません。その代わりに、最近のコンピュータビジョンの進歩を考慮して、簡単で段階的でありながら、必ず知っておくべきベースラインを研究している：Visual Transformers (ViT)の自己教師付き学習である。標準的な畳み込みネットワークの学習レシピは非常に成熟していて堅牢であるが、ViTの学習レシピはまだ構築されておらず、特に自己教師付きのシナリオでは学習がより困難になる。本研究では、基本に立ち返って、自己教師付きViTを学習するためのいくつかの基本的なコンポーネントの影響を調査しました。その結果、不安定性は精度を低下させる大きな問題であり、一見すると良い結果に隠されていることが分かりました。これらの結果は確かに部分的な失敗であり、学習をより安定させれば改善できることを明らかにした。 ViTの結果を、MoCo v3や他のいくつかの自己監視型フレームワークでベンチマークし、様々な側面でアブレーションが発生していることを明らかにする。現在のポジティブな証拠だけでなく、課題やオープンクエスチョンについても議論する。この研究が、将来の研究に役立つデータポイントと経験を提供することを期待しています。

e4exp commented 3 years ago

結論

私たちは、コンピュータビジョンで最近よく使われている自己教師付きフレームワークでViTを学習することを検討した。 ViTと標準的な畳み込みネットワークの比較、教師ありと教師なしの比較、コントラスト学習とマスク付きオートエンコーディングの比較など、いくつかの側面から比較を行った。肯定的な証拠だけでなく、課題、未解決の問題、機会についても報告します。本研究で得られたデータポイントと経験が、視覚と言語の間の事前学習のギャップを埋めるために、コミュニティにとって有用であることを期待しています。

e4exp commented 3 years ago

興味深いことに，不安定なViTトレーニングでは，致命的な失敗（例：ダイバージェンス）には至らないものの，代わりに軽度の精度劣化（例：1〜3％）が生じることが観察された。このような程度の劣化は、より安定した相手との比較ができなければ、目立たないかもしれません。我々の知る限り、このような現象は畳み込みネットワークの学習に関する文献では稀であり、この問題とその隠れた劣化は注目に値すると考えています。不安定さの弊害の可能性を示すために、実際に安定性を向上させることができる簡単なトリックを調査する。勾配の変化に関する経験的な観察に基づいて、ViTのパッチ投影層をフリーズさせ、つまり固定のランダムパッチ投影を使用します。このトリックにより、いくつかのシナリオで不安定性の問題が緩和され、一貫して精度が向上することを実証的に示します。

e4exp / paper_manager_abstract

An Empirical Study of Training Self-Supervised Visual Transformers #346