e4exp / paper_manager_abstract

0 stars 0 forks source link

Token Labeling: Training a 85.5% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet #416

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本論文では、ImageNet分類タスクにおける視覚変換器の強力なベースラインを提供します。 最近のビジョン変換器は、ImageNetの分類において有望な結果を示しているが、その性能は、ほぼ同じモデルサイズの強力な畳み込みニューラルネットワーク(CNN)に比べてまだ遅れている。 本研究では、新しい変換アーキテクチャを説明するのではなく、学習技術のバッグを開発することで、ImageNet分類におけるビジョン変換の可能性を探ります。 視覚変換器の構造をわずかに調整し、トークンのラベリングを新たな学習目的として導入することで、我々のモデルは、CNNや他の変換器ベースの分類モデルと同程度の学習パラメータと計算量で、より良い結果を得ることができることを示す。 26Mの学習可能なパラメータを持つビジョントランスフォーマーを例にとると、ImageNetで84.4%のトップ1精度を達成することができます。 さらに、モデルサイズを56M/150Mに拡張すると、データを追加することなく、85.4%/86.2%の結果を得ることができました。 この研究が、強力なビジョン変換器を訓練するための有用な技術を研究者に提供できることを願っています。 我々のコードとすべてのトレーニングの詳細は、このhttpsのURLで公開される予定です。

https://github.com/zihangJiang/TokenLabeling

e4exp commented 3 years ago
  1. はじめに

元々は機械翻訳タスクのために設計されたトランスフォーマーは,過去数年間,ほとんどすべての自然言語処理(NLP)タスクで優れた性能を発揮してきました[3, 13, 22]。 NLPタスクにおけるトランスフォームの成功に触発されて,ごく最近,多くの研究者が視覚タスクのための純粋またはハイブリッドなトランスフォームモデルの構築を試み,画像分類のためのトランスフォームベースのモデルの可能性を示している[14, 42, 32, 36, 23, 5]. しかし,[14]で解釈されているように,純粋な変換器ベースのモデルは,まともな性能を得るためには,数千万枚の学習画像を含む非常に大規模なデータセット(例えば,ImageNet-22k)で事前学習を行う必要がある. その後,DeiT [32]およびT2T-ViT [42]は,適切なデータ増強ポリシーを利用することで,わずか120万枚のImageNetトレーニングデータを用いて,22Mの学習可能なパラメータを持つImageNet上で80%近いトップ1精度を達成する視覚変換器を学習できることを実証しました[12]. この成功は、長年ImageNetの分類を支配してきた正規の畳み込みニューラルネットワーク[27, 16, 31]を凌駕するビジョン変換器を実現する有望な方法です。

DeiT [32]とT2T-ViT [42]に触発され、本稿では、純粋なImageNet-1kデータに依拠したImageNet分類におけるビジョン変換器の可能性を調査することにも関心があります。 我々の目標は、変換器の構造を変えることなく、ビジョン・コミュニティにビジョン変換器の強力なベースラインを提供することです。 これを達成するために、我々はまず、パッチ埋め込みの実行方法を再考し、[42]で行われたように、誘導バイアスを明示的に導入することを提案します。 さらに、スコア予測のためにクラストークンに線形層を接続する以外に、K次元スコアマップをスーパーバイズとし、クラス1を除くすべてのトークンを密にスーパーバイズすることで、トークンラベリングの目的損失を提示する(Kは対象データセットのカテゴリの数)。 K-次元スコアマップは、[45]で述べられているような再ラベル化戦略を利用することで、簡単に生成することができる。 さらに、ビジョン変換器の構造を調整するための実用的なアドバイスも行っている。 前述の学習戦略と目的に基づいて、我々は、LV-ViTと呼ばれるビジョン変換器の改良版を提示する。 図1に示すように、56M個のパラメータを持つLV-ViTは、100M個以下のパラメータを持つほとんどの変換器ベースのモデルよりも良い性能を示しています。 また,表1から,我々のLV-ViTは,より少ない学習技術,モデルサイズ,および計算量で,最近の最先端のCaiTモデル[33]よりも優れた結果を達成していることがわかります。 この論文が、研究者や技術者がビジョン変換器を学習するための強力なベースラインを提供するための教示的な仕事として評価されることを願っています。

image

image

e4exp commented 3 years ago

image

e4exp commented 3 years ago
  1. 結論

本論文では,視覚変換モデルの性能を向上させるためのいくつかの手法を紹介した. また、各コンポーネントを個別に分析し、その貢献度を評価しました。 これらを組み合わせることで、LV-ViTと呼ばれる高性能なモデルを得ることができた。 このモデルは、わずか26MのパラメータでImageNet上で84.4%のTop-1精度を達成しており、我々が提案した学習技術の有効性が実証された。