e4exp / paper_manager_abstract

0 stars 0 forks source link

Self-Supervised Learning with Swin Transformers #474

Open e4exp opened 3 years ago

e4exp commented 3 years ago

コンピュータビジョンの分野では、CNNからTransformerへとモデルチェンジが進んでいます。 本研究では、Vision Transformersをバックボーン・アーキテクチャとする、MoBYと呼ばれる自己教師付き学習アプローチを発表する。 このアプローチには基本的に新しい発明はなく、MoCo v2とBYOLを組み合わせ、ImageNet-1Kの線形評価で合理的に高い精度を達成するように調整されている。 DeiT-SとSwin-Tを用いて、300エポックの学習により、それぞれ72.8%と75.0%のトップ1精度を達成しています。 この性能は、DeiTをバックボーンとして採用しているMoCo v3やDINOなどの最近の作品よりも、より軽いトリックでわずかに上回っています。 さらに重要なことは、汎用的なSwin Transformerをバックボーンとすることで、物体検出や意味分割などの下流のタスクでも学習した表現を評価することができることです。 今回の結果が、Transformerアーキテクチャ用に設計された自己教師付き学習手法のより包括的な評価につながることを期待しています。 我々のコードとモデルはこのhttpsのURLで公開されており、今後も継続的に充実させていく予定です。 https://github.com/SwinTransformer/Transformer-SSL

e4exp commented 3 years ago

1 はじめに

視覚分野では、2年ほど前から2つの革命的なトレンドが起こっています。 1つ目のトレンドは、MoCo[9]によって開拓された自己教師付き視覚表現学習であり、ImageNet-1K分類によって、7つの下流タスクにおいて、従来の標準的な教師付き手法よりも優れた転送性能を初めて実証しました。 2つ目は、Transformerベースのバックボーン・アーキテクチャ[7, 16, 14]で、ResNet[11]のような従来の標準的な畳み込みニューラルネットワークを置き換える強い可能性を秘めています。 先駆的な研究はViT [7]で、NLPにおいて標準的なTransformerエンコーダ[17]を非重複画像パッチに直接適用することで、画像分類において強力な性能を示しました。 後続の作品であるDeiT [16]は、ImageNet-1Kの画像分類でViTがうまく動作するように、いくつかの学習戦略を調整しました。 ViT/DeiTは画像分類タスクのために設計されたものであり、密な予測を必要とする下流のタスクのためにはうまく手なずけられていませんが、Swin Transformer [14]は、局所性、階層性、翻訳不変性という有用な帰納的バイアスを導入することで、汎用的なビジョンのバックボーンとしての役割を果たすことが提案されています。 この2つの革命的な波は独立して現れましたが、コミュニティでは、どのような適応が必要か、また、それらが互いに出会ったときにどのような振る舞いをするかについて興味を持っています。 それにもかかわらず、ごく最近まで、いくつかの作品がこの空間を探索し始めました。MoCo v3 [6]は、ViTがImageNet-1Kの線形評価でそれなりの性能を発揮するための学習レシピを提示し、DINO [3]は、Transformerアーキテクチャとの良い相乗効果を示す新しい自己教師付き学習法を提示しています。

これらの研究は、ImageNet-1Kの線形評価では心強い結果を出していますが、オブジェクト検出やセマンティックセグメンテーションなどの下流タスクでの転送性能の評価は行われていません。 そこで、従来のViTアーキテクチャに代わり、Swin Transformerアーキテクチャを採用することを提案します。 これは、Swin Transformerが汎用的に設計されており、下流のタスクでも高い性能を発揮するためです。 このバックボーン・アーキテクチャの変更に加えて、MoCo v2 [5]とBYOL [8]を組み合わせた自己教師付き学習アプローチを提案し、MoBY(それぞれの最初の2文字を取って)と名付けました。

我々は、ImageNet-1Kの線形評価において、このアプローチがそれなりに高い性能を発揮するように学習レシピを調整した。 DeiT-Sを用いた300epochの学習では、72.8%のトップ1精度が得られました。これは、MoCo v3やDINOよりもわずかに良い結果ですが、より軽いトリックが必要です。 DeiT-Sの代わりにSwin-Tアーキテクチャを使用すると、300エポックの学習で75.0%のトップ1精度を達成し、DeiT-Sを使用した場合よりも2.2%高くなりました。 例えば、MoCo v3のように、MLPブロックの前のLayerNorm層をBatchNormに置き換えると、100エポックトレーニングでさらに+1.1%の精度が得られ、MoBYの強い可能性を示しています。 下流のタスクであるCOCOオブジェクト検出やADE20Kセマンティックセグメンテーションに移行した場合、この自己教師付き学習アプローチによって学習された表現は、教師付きの方法と比較して同等のパフォーマンスを達成しています。

ResNetアーキテクチャを用いた自己教師付き学習は、教師付き手法と比較して、下流のタスクへの移行性能が著しく高いことが知られていますが[9, 19, 12]、今回の結果は、Transformerを用いた自己教師付き学習に大きな改善の余地があることを示しています。 提案されたアプローチには、基本的に新しい発明はありません。 我々が提供するのは、これまでの優れた手法を組み合わせたアプローチであるが、調整されたハイパーパラメータに関連したより軽いトリックを用いて、ImageNet-1Kの線形評価において合理的に高い精度を達成している。 また、Transformerアーキテクチャでの自己教師付き学習の将来的な研究のために、下流のタスクでの転送性能の評価を助けるベースラインを提供します。

e4exp commented 3 years ago

image

e4exp commented 3 years ago

4 結論

本論文では、Vision Transformersをバックボーン・アーキテクチャとする、MoBYと呼ばれる自己教師付き学習アプローチを紹介します。 適切な学習レシピとMoCo v3/DINOよりもはるかに軽いトリックにより、MoBYはImageNet-1Kの線形評価において合理的に高い性能を達成することができる。 DeiT-SとSwin-Tを用いて、300エポックの学習により、それぞれ72.8%と75.0%のトップ1精度を達成しています。 さらに重要なことは、ViT/DeiTとは対照的に、汎用的なSwin Transformerバックボーンにより、物体検出やセマンティックセグメンテーションなどの下流のタスクでも学習した表現を評価することができることです。 MoBYは、教師ありの手法と同等か、わずかに悪い結果となり、Transformerアーキテクチャを用いた自己教師ありの学習には改善の余地があることを示しています。 我々の結果が、Transformerアーキテクチャ用に設計された自己教師付き学習手法のより包括的な評価を促進することを期待している。 我々のコードとモデルは、https://github.com/SwinTransformer/Transformer-SSL で公開されており、今後も継続的に改良されていく予定です。