e4exp / paper_manager_abstract

0 stars 0 forks source link

ResMLP: Feedforward networks for image classification with data-efficient training #467

Open e4exp opened 3 years ago

e4exp commented 3 years ago

ResMLPは、画像分類のための多層パーセプトロンで構成されたアーキテクチャです。 ResMLPは、 (i)画像パッチがチャネル間で独立かつ同一に相互作用する線形層と、 (ii)チャネルがパッチごとに独立に相互作用する2層のフィードフォワードネットワークを交互に配置したシンプルな残差ネットワークです。 このネットワークを、データの大規模化と任意の蒸留を用いた最新の学習戦略で学習すると、ImageNetにおいて、驚くほど良好な精度と複雑さのトレードオフを達成することができます。 本発表では、Timmライブラリと事前に学習されたモデルに基づいたコードを共有します。

e4exp commented 3 years ago

1 はじめに

最近,自然言語処理で使用されていた transformer アーキテクチャ [52] が,十分な量のデータ [13] で事前に学習された場合,ImageNet-1k [43] で最先端の技術と同等の性能を達成しました. 振り返ってみると,この成果は,より少ないプリオールに向けたもう1つのステップです. 畳み込みニューラルネットワークは,手作業で設計されたCNN以前のアプローチと比較して,手作業による多くの選択肢を取り除き,ハードワイヤードな特徴のパラダイムを手作業で設計されたアーキテクチャの選択肢に移行させました. 視覚変換器は、畳み込みアーキテクチャに固有の仮定を回避し、特に翻訳不変性を実現します。 これらの変換器を用いた最近の研究が示唆するのは,ImageNetの分類のような複雑なタスクの重要なプリオールを回復するには,より長い学習スケジュール,より多くのパラメータ,より多くのデータ[13],および/または,より多くの正則化[49]で十分であるということです. セクション4の関連研究の議論も参照してください。 これは、アーキテクチャからの利益と学習スキームからの利益をより明確に分離した最近の研究[2, 12]と一致しています。

本論文では,この傾向をさらに推し進め,Residual Multi-Layer Perceptrons (ResMLP): 純粋に多層パーセプトロン (MLP) ベースの画像分類用アーキテクチャを提案する。 このアーキテクチャの概要を図1に示し、詳細は2章で説明します。 入力として平坦化されたパッチを受け取り、線形層で投影し、2つの残差演算で順次更新していくというシンプルなものです。 (i) パッチ間のインタラクションを提供する単純な線形層で、すべてのチャンネルに独立して適用されます。 (ii) すべてのパッチに独立して適用される、単一の隠れ層を持つMLP。ネットワークの最後に、パッチは平均的にプールされ、線形分類器に供給されます。

このアーキテクチャは,ビジョン・トランスフォーマー(ViT)[13]に強くインスパイアされたものであるが,いくつかの点ではるかに単純である. すなわち,いかなる形態のアテンションも使用せず,GELU非線形性を伴う線形層のみを使用する. 我々のアーキテクチャはトランスフォーマーよりもはるかに安定して学習できるため,Batch Norm,GroupNorm,LayerNormのようなバッチごとの正規化やチャネル間の正規化は必要ありません.

我々の学習手順は,DeiT [49]やCaiT [50]で最初に導入されたものをほぼ踏襲しています. 線形的な性質を持っているため,我々のモデルにおけるパッチの相互作用は,簡単に視覚化して解釈することができます. 第1層で学習された相互作用パターンは、小さな畳み込みフィルターに非常に似ていますが、より深い層では、パッチ間のより微妙な相互作用が観察されます。 これらには、何らかの形の軸方向のフィルターや、ネットワークの初期段階での長距離の相互作用が含まれます。

本論文では、以下のことを明らかにしました。

e4exp commented 3 years ago

image