e4exp / paper_manager_abstract

0 stars 0 forks source link

Emerging Properties in Self-Supervised Vision Transformers #442

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本論文では,自己教師付き学習がVision Transformer (ViT)に,畳み込みネットワーク(convnets)と比較して際立った新しい特性を与えるかどうかを疑問視している. 自己教師付き手法をこのアーキテクチャに適応させると、特にうまくいくという事実に加えて、次のような見解を得た:

第1に、自己教師付きViTの特徴は、画像の意味的なセグメンテーションに関する明確な情報を含んでいる。 次に、これらの特徴は優れたk-NN分類器でもあり、小さなViTでImageNetの78.3% top-1に達しました。

本研究では、モーメンタムエンコーダ、マルチクロップトレーニング、およびViTでの小さなパッチの使用の重要性も強調している。 我々の研究結果を、DINOと呼ばれるシンプルな自己教師付き手法に実装し、ラベルのない自己蒸留の一形態と解釈しています。 ViT-Baseを用いた線形評価において、ImageNetで80.1%のtop-1を達成し、DINOとViTsの相乗効果を示した。

e4exp commented 3 years ago

image

  1. はじめに

トランスフォーマー[67]は,近年,畳み込みニューラルネットワーク(convnets)に代わる視覚認識手法として登場しました[18, 66, 80]. トランスフォーマーの採用には,自然言語処理(NLP)にヒントを得た学習戦略,すなわち,大量のデータで事前学習を行い,ターゲットデータセットで微調整を行うという方法が用いられている[17, 53]. 結果として得られたVision Transformers (ViT) [18]は、コンボネットと競合するものであるが、計算負荷が高く、より多くの学習データを必要とし、その特徴がユニークな特性を示さないなど、コンボネットに対する明確な利点はまだ得られていない。 本論文では、Transformerが視覚分野であまり成功していないのは、事前学習に監視を用いているからではないかと考えている。 我々の動機は、NLPにおけるTransformerの成功の主な要因の1つが、BERT[17]の緊密な手順やGPT[53]の言語モデリングの形で、自己教師付きの事前トレーニングを使用していたことです。 これらの自己教師付き前学習の目的は、文の中の単語を使用して、文ごとに1つのラベルを予測する教師付きの目的よりも豊富な学習信号を提供するプレテキストタスクを作成します。 同様に,画像においても,画像レベルの教師は,画像に含まれる豊富な視覚情報を,あらかじめ定義された数千のオブジェクトのカテゴリセットから選択された単一の概念に還元することが多い[58]. NLPで使用されている自己教師付きプリテキストタスクはテキストに特化していますが、既存の自己教師付き手法の多くは、コンボネットを用いて画像に対してその可能性を示しています[10, 12, 28, 31]。 これらの手法は一般的に類似した構造を持っているが,些細な解決策(collapse)を避けるため,あるいは性能を向上させるために設計された異なるコンポーネントを持っている[15]. 本研究では,これらの手法にヒントを得て,ViTの特徴に対する自己教師付き事前学習の影響を研究した. 特に興味深いのは、教師付きViTやコンボネットでは現れない、いくつかの興味深い特性を確認したことである。

セグメンテーション・マスクの出現は、自己保存法に共通する特性のようです。 しかし、k-NNでの優れた性能は、モメンタムエンコーダ[31]やマルチクロップ補強[10]などの特定のコンポーネントを組み合わせた場合にのみ現れます。 この研究から得られたもう一つの知見は,結果として得られる特徴の質を向上させるために,ViTでより小さなパッチを使用することの重要性である. これらのコンポーネントの重要性に関する我々の発見は、ラベルのない知識蒸留[33]の一形態として解釈できる、シンプルな自己教師付きアプローチを設計することにつながった。 その結果,DINOというフレームワークでは,標準的なクロスエントロピー損失を用いて,モメンタムエンコーダーで構築された教師ネットワークの出力を直接予測することで,自己教師付き学習を簡素化している. 興味深いことに、我々の手法は、教師出力のセンタリングと鮮鋭化のみで破綻を回避することができるが、予測器[28]、高度な正規化[10]、コントラスト損失[31]などの他の一般的なコンポーネントは、安定性や性能の面でほとんど利点をもたらさない。 特に重要なのは、我々のフレームワークは柔軟性があり、アーキテクチャを変更したり、内部の正規化を適応したりすることなく、コンボネットとViTの両方で動作することである[56]。 さらに、ImageNet線形分類ベンチマークにおいて、小さなパッチを持つViTベースで80.1%のトップ1精度と、これまでのセルフサーパス機能を上回る結果を得て、DINOとViTの相乗効果を検証しました。 また、ResNet-50アーキテクチャでは、DINOがコンボネットで動作することを確認しました。 最後に、計算機やメモリの容量が限られている場合に、ViTでDINOを使用するための様々なシナリオについて説明します。 特に、ViTを用いたDINOのトレーニングは、2台の8-GPUサーバを3日間使用するだけで、ImageNet linear benchmarkで76.1%を達成しており、これは、大幅に削減された計算要件で、同等のサイズのコンボネットに基づく自己監視システムを上回るものです[10, 28]。

e4exp commented 3 years ago

image

e4exp commented 3 years ago
  1. 結論

本研究では,標準的なViTモデルを教師付きで前処理することの可能性を示し,この環境のために特別に設計された最高のコンボネットと同等の性能を達成した. k-NN分類における特徴の質は、ViTがすでに有望な結果を示している画像検索に利用できる可能性がある。 しかし、本論文の主な結果は、自己教師付き学習が、ViTに基づくBERTのようなモデルを開発するための鍵となり得ることを証明したことです。 将来的には、ランダムな未校正画像上でDINOを用いて大規模なViTモデルを事前学習することで、視覚的特徴の限界を押し上げることができるかどうかを探る予定です[26]。