e4exp / paper_manager_abstract

0 stars 0 forks source link

Visformer: The Vision-friendly Transformer #426

Open e4exp opened 3 years ago

e4exp commented 3 years ago

昨年は、Transformerモジュールを視覚問題に適用することが急速に発展しました。 一部の研究者は、Transformerベースのモデルがデータをフィットさせる能力に優れていることを実証しているが、特に学習データが限られている場合には、これらのモデルが過剰にフィットしてしまうことを示す証拠がまだ増えている。 本論文では、TransformerベースのモデルをConvolutionベースのモデルに段階的に移行させる操作を行うことで、実証的な研究を行っています。 本論文では、TransformerベースのモデルからConvolutionベースのモデルへの移行を段階的に行うことで、視覚認識の向上に役立つ情報を得ることができた。 これらの結果に基づいて、Visformer(Vision-friendly Transformer)という新しいアーキテクチャを提案します。 Visformerは、同じ計算量で、ImageNetの分類精度において、TransformerベースのモデルとConvolutionベースのモデルの両方を凌駕し、モデルの複雑さが低い場合や、トレーニングセットが小さい場合には、その優位性がより顕著になる。 コードはこちらのhttpsのURLから入手できます。

https://github.com/danczs/Visformer

e4exp commented 3 years ago
  1. はじめに

過去10年間、視覚認識用の深層学習モデル[22, 29, 31, 15]では、畳み込みが中心的な役割を果たしていました。 この状況は、自然言語処理[35, 12, 25]に由来するモジュールであるTransformer[35]が、視覚シナリオに移植されたときに変わり始めます。 ViTモデル[13]では、画像をパッチのグリッドに分割し、各パッチが視覚的な単語であるかのように、Transformerをグリッドに直接適用できることが示されました。 ViTは、大量の学習データ(ImageNet-21K [11]やJFT-300Mデータセットなど)を必要としますが、これはTransformerが長距離の注意とインタラクションを備えているため、オーバーフィッティングが起こりやすいためだと考えられます。 後続の取り組み[34]により、ViTはある程度改善されましたが、これらのモデルは、特に限られたトレーニングデータや適度なデータ増強の下では、畳み込みベースのモデルと比較して、依然として悪い性能を示します。 一方、ビジョントランスフォーマーは、大量のデータで学習した場合、コンボリューションベースのモデルよりもはるかに優れた性能を達成することができる。 すなわち、ビジョントランスフォーマーは「上界」が高く、コンボリューションベースのモデルは「下界」で優れている。 上界も下界も、ニューラルネットワークにとって重要な特性です。上界とは、より高い性能を達成できる可能性のことで、下界とは、限られたデータで学習した場合や、異なる複雑さにスケールアップした場合に、ネットワークがより良い性能を発揮できるようにすることです。 本論文の主な目的は、TransformerベースのネットワークとConvolutionベースのネットワークのlower-boundとupper-boundの観察に基づいて、その違いの理由を明らかにすることで、より高いlower-boundとupper-boundを持つネットワークを設計することです。 TransformerベースのネットワークとConvolutionベースのネットワークの差は、ImageNetの2種類の学習設定で明らかになります。 1つ目の設定は、基本設定です。 これは、Convolutionベースのモデルの標準的な設定であり、学習スケジュールは短く、データ補強にはランダムサイズの切り抜き[32]や反転などの基本的な演算子しか含まれていません。 この設定での性能を,本稿では基本性能と呼ぶ.もう1つは、[34]で用いられた学習設定です。これは、Transformerベースのモデルのために注意深く調整された設定であり、学習スケジュールが長く、データ補強が強くなっています(RandAugment [10]、CutMix [41]などが追加されています)。 我々は,それによって生み出された精度を指すためにエリート・パフォーマンスを使用する.

TransformerベースのモデルとConvolutionベースのモデルの例として、DeiT-S[34]とResNet-50[15]を取り上げます。 表1に示すように,DeiT-SとResNet-50は,同等のFLOPsとパラメータを採用しています. しかし,この2つの設定では,フルデータで学習したときの挙動が大きく異なります. Deit-Sはエリート性能が高いが,エリートからベースに設定を変更すると,DeiT-Sの精度が10%以上低下する. また、ResNet-50は、ベース設定の方がはるかに良い性能を発揮しますが、エリート設定での改善はわずか1.3%です。 そこで、この2つのモデルの違いを調べてみることにしました。 この2つの設定により、モデルの下界と上界を大まかに見積もることができます。 私たちが用いた方法論は、あるモデルを別のモデルに段階的に移行させる操作を行うことで、この2つのネットワークにおけるモジュールとデザインの特性を明らかにするというものです。 図1は、8つのステップからなる移行プロセスの全体像を示しています。 具体的には,DeiT-SからResNet-50への移行では,

(i)グローバルな平均プーリング(分類トークンではない), (ii)段階的なパッチエンベッディングの導入(ラージパッチフラットニングではない), (iii)段階的なバックボーンデザインの採用。 (iv) 一括正規化[20]を使用する(レイヤー正規化[1]ではない)、 (v) 3×3畳み込みを活用する、 (vi) 位置埋め込みスキームを破棄する、 (vii) 自己注目を畳み込みに置き換える、最後に (viii) ネットワークの形状を調整する(例. g., 深さ、幅など)を調整しました。)

このように、結果の理由を徹底的に分析した上で、視覚認識に役立つ要素をすべて吸収し、Visformer、すなわちVisionfriendly Transformerを導き出します。

ImageNetの分類で評価したところ、表1に示すように、Visformerは、競合であるDeiTやResNetよりも優れた性能を主張しています。 エリート設定では、モデルの複雑さが同等の場合、VisformerSモデルはDeiT-SとResNet-50をそれぞれ1.45%と2.79%上回りました。 Deit-Sとは異なり、Visformer-Sは10%のラベル(画像)と10%のクラスでモデルを学習した場合という2つの追加課題にも耐えています。 Visformer-SはResNet-50よりも優れた性能を示し、Visformer-Sの高い下限値を明らかにしています。 さらに、小さなレベルにスケールアップすると、Visformer-TinyはDeit-Sを6%以上も大きく上回ります。 この論文の貢献度は3つあります。 第一に、Transformerベースのビジョンモデルの性能を調べるために、下界と上界を初めて導入しました。 第2に、TransformerベースのモデルとConvolutionベースのモデルの間のギャップを、段階的な移行プロセスによって埋めることで、TransformerベースのモデルとConvolutionベースのモデルにおける設計の特性を明らかにする。 第三に、満足のいく下限値と上限値を達成し、同時に良好なスケーラビリティを享受できる最終モデルとして、Visformerを提案する。

e4exp commented 3 years ago

image

image

e4exp commented 3 years ago
  1. 結論

本稿では、視覚認識に親和性のあるTransformerベースのモデルであるVisformerを紹介します。 各モデルの性能を評価するために、ベース設定とエリート設定の2つのプロトコルを用いることを提案する。 TransformerベースのモデルとConvolutionベースのモデルの振る舞いが異なる理由を研究するために、これらのモデルのギャップを分解し、DeiT-SとResNet-50のギャップを埋める8段階の移行手順を設計する。 長所を吸収し、短所を捨てることで、DeiT-SとResNet-50の両方を凌駕するVisformer-Sモデルが得られました。 Visformerは、コンパクトなモデルに移行した場合や、小さなデータセットで評価した場合にも有望な能力を発揮します。 しかし、Transformerベースのモデルは、まだ転送の柔軟性に欠けていることに気づくだろう。 例えば、オブジェクト検出やセマンティック/インスタンスセグメンテーションでは、大きな入力画像を必要とすることが多いのですが、Transformerの複雑さは、入力サイズに応じてO N^4増加します。 また、Transformerベースのモデルに対する自己教師付き学習[9, 14]の性能はまだ不明です。Visformerがコミュニティに刺激を与え、これらの課題を解決するための新たな機会を提供することを期待しています。