e4exp / paper_manager_abstract

0 stars 0 forks source link

Efficient Self-supervised Vision Transformers for Representation Learning #556

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本論文では、視覚表現学習のための効率的な自己教師付き視覚変換器(EsViT)を開発するための2つの技術を調査する。 まず、包括的な実証研究を通して、疎な自己言及を持つ多段アーキテクチャは、モデリングの複雑さを大幅に軽減できるが、その代償として画像領域間の細かい対応関係を捉える能力が失われることを示す。 次に、領域マッチングという新しい事前学習タスクを提案します。 このタスクにより、モデルは細かい領域の依存関係を捉えることができ、その結果、学習された視覚表現の品質が大幅に向上します。 その結果、2つの技術を組み合わせることで、EsViTはImageNetの線形プローブ評価において81.3%のトップ1を達成し、先行技術よりも約1桁高いスループットを実現しました。 また、下流の線形分類タスクに移行した場合、18のデータセットのうち17のデータセットで、EsViTは教師ありのタスクよりも優れた結果を示しました。 コードとモデルは一般に公開される予定です。

e4exp commented 3 years ago

1 はじめに

Transformers[57]を用いた自己教師付き学習(SSL)は、自然言語処理(NLP)におけるモデル選択のデファクトスタンダードとなっています。 GPT[48]やBERT[16]のような主流のアプローチは、大規模なテキストコーパスで事前学習を行い、その後、様々な小さなタスクに特化したデータセットに微調整することで、優れた性能を発揮します。 GPT-3 [2]に代表されるように、より大規模な言語データセットで事前学習された大きなトランスフォーマーは、より強い汎化能力を持つことが多く、ダウンストリームタスクでの性能向上(まだ性能飽和の兆候はない)によって示されます。 しかし、コンピュータ・ビジョン(CV)では、自己教師付き視覚表現学習は依然として畳み込みニューラル・ネットワーク(CNN)が主流である。 CVにおけるSSLは,NLPと同様の目的・精神を持ち,手動のスーパービジョンに頼らず,生のピクセルから汎用的な画像特徴を学習することを目的としています. 学習されたネットワークは,分類,検出,セグメンテーションなどの様々な下流タスクのバックボーンとして機能します. 近年、CNNベースのSSLでは、ラベル数が限られたタスクにおいて、最先端の(SoTA)完全教師付き事前学習手法[26, 5]を上回る素晴らしい性能が達成されています。 成功の鍵は対照学習であり、同じ例の異なる拡張ビュー間で学習された表現の一致を最大化することである。 SimCLR-v2 [10]、BYOL [25]、SwAV [5]などの最近の研究では、CNNベースのコントラスト学習のモデルを何億ものパラメータにスケールアップしています。

しかし、SSLはNLPと同じようにCVではスケーリングの成功を収めていません。 SSLをTransformerやselfattentionのアーキテクチャと組み合わせることで、このギャップを埋める試みがいくつかなされています。 初期の作品には、Selfie[55]があり、BERTのマスクドランゲージモデリングの概念を画像用に一般化したものです。 このアイデアは、JFT-300Mなどのより大規模なデータセットでの事前学習を経て、Vision Transformer(ViT)[19]で再検討されています。 ImageGPT (iGPT) [8]は、GPTの自動回帰型言語モデリングの概念を画像用に一般化したもので、大きなモデルサイズでもImageNetの認識精度を維持しています。 ViTを用いた対照学習は、DINO[6]やMoCo-v3[12]でも最近研究されており、分割された画像パッチの長いシーケンスで完全な自己注意演算子の計算資源を徹底的に消費することにより、ImageNet-1Kで線形プローブ評価による新しいSoTAの結果が得られています。

本論文では、トランスフォーマーベースのSSLの効率を向上させることを目的として、多段アーキテクチャと、教師なし表現学習のための領域ベースの事前学習タスクを用いたEfficient selfsuperivsed Vision Transformers (EsViT)を提案します。 我々の主な発見と貢献は以下のようにまとめられる。

image

e4exp commented 3 years ago

image