Open e4exp opened 3 years ago
1 はじめに
近年、視覚的変換器は、画像分類(Dosovitskiyら、2020年)、物体検出(Zhuら、2020年、Carionら、2020年)、多物体追跡(Meinhardtら、2021年)、ビデオ理解(Bertasiusら、2021年)など、さまざまな困難なコンピュータビジョンタスクにおいて有望な性能を示している。 CNNと比較して、transformerは非局所的な計算を奨励しており、高度に最適化されたCNN、例えばResnets(He et al. 画像の入力を変換器に与えるために、標準的なアプローチは、画像をパッチのセットに分割し(Dosovitskiy et al.、2020)、バッチ全体の情報を集約する自己注意を使用してパッチの表現を学習する(Vaswani et al.、2017)。 そして、学習されたパッチの表現は、画像分類(Dosovitskiyら、2020年、Touvronら、2020年)、画像セグメンテーション(Liuら、2021年)、物体検出(Zhuら、2020年)など、さまざまな視覚タスクの特徴量として利用できる。 このように、高品質で情報量の多いパッチ表現を学習することは、視覚タスクにおけるトランスフォーマーの応用を成功させるための重要な要素となります。
実際には、ビジョン変換器のモデルの最適化は通常不安定であり、特にディープビジョンのビジョン変換器では学習が困難です(Touvron et al., 2021)。 また、視覚変換器の自己注視層を複数重ねると、層が深くなるにつれて、異なるパッチの学習された表現がすぐに互いに似てくることがわかりました。 そして、異なるパッチの表現は、最終的には見分けがつかなくなってしまいます。 この好ましくない現象を「オーバー・スムージング」と呼んでいます。 過剰な平滑化は、パッチ表現間の全体的な表現力を低下させ、強力な大規模視覚変換装置の学習能力を著しく阻害することになります。 例えば、直接的な副作用として、Touvronら(2021)は、Dosovitskiyら(2020)によって開発された標準的なビジョン変換器の深さを増加させても、分類性能を向上させることはできず、深刻なトレーニングの不安定さにつながることを発見しました。 NLPタスクでは、言語モデルはトークン単位のラベルによって自己教師され、その表現は分類層と埋め込み層の両方で再利用されます。 そのため、過平滑性は見られません。
本研究では、まず、様々なアーキテクチャ設定において、視覚変換装置における過平滑化というユビキタスな現象を検証するために、広範な実験を設計します。 例えば、24層のDEITBase(Touvron et al., 2020)モデルの最後の層において、異なるパッチ表現間の平均ペアワイズ余弦類似度が0.9に近いことを発見し、学習されたパッチ表現間に高い相関と重複があることを示しました。 次に、視覚変換における過平滑化の問題を緩和するための3つの異なる戦略を検討する。 1つ目の戦略では、異なるパッチ間のペアワイズコサイン類似度にペナルティを課すことで、異なるパッチ間の多様性を直接促進することを提案する。 一方、第1層で学習されたパッチ表現は、入力ピクセルのみに依存しており、まだ自己注意によって混合されていないため、これらの表現はしばしばより多様であることに注意してください。 この観察に基づいて、第2の戦略として、各パッチについて、第1の層のパッチ表現は、最後の層の対応するパッチ表現と似ている一方で、他の最後の層のパッチ表現とは似ていないようにすることを奨励する。 さらに、Cutmix (Yun et al., 2019)と同様に、各入力を2つの異なる画像で混合しながら、各画像からのパッチ表現がその対応するクラスカテゴリの予測に使用できることを要求する。 各画像パッチに対して、カットミックスに基づくパッチレベルの分類損失は、自己注目層に、自身のカテゴリーに最も関連するパッチのみに注目させることで、より識別的な特徴を学習し、パッチ表現間の過剰なスムースさを回避する。 経験的に、我々の過平滑性防止学習戦略を取り入れることで、アーキテクチャの変更やデータの追加なしに、ImageNet上の標準的な視覚変換器の画像分類を大幅に改善することができました。 具体的には、ImageNetにおいて、224×224の入力解像度で83.3%のトップ1精度を達成し、さらに512×512の入力解像度に微調整することで、トップ1精度を85.0%まで向上させました。 また、(Dosovitskiy et al., 2020)のImageNet-22Kで学習したチェックポイントをさらに微調整し、ImageNetで85.3%のトップ-1精度を達成しました。
7 結論
本稿では,画像変換器を学習する際の平滑化過剰の問題を明らかにした。 我々はいくつかの損失を提案することで、この問題に対処する。 経験的に,変換器のモデル構造を変更することなく,過平滑性を除去することで,より大きく,より深いモデルを学習することができ,画像分類タスクにおいてより良い性能を得ることができた. 今後の課題としては,提案した損失をより多くの異なる変換器アーキテクチャでテストすることである. また、提案した損失を自己教師付き学習の設定に組み込み、過平滑化の問題に対処した場合に、変換モデルがコンピュータビジョンタスクのためのより良い自己教師付き学習者として機能するかどうかを研究する。
コンピュータビジョンのタスクにトランスフォーマー構造を導入することで,従来の畳み込みネットワークよりも速度と精度のトレードオフが改善されると期待されている. しかし,バニラ変換器を視覚タスクで直接学習すると,不安定で最適ではない結果が得られることがわかっている. そのため,最近の研究では,視覚タスクでの性能を向上させるために,畳み込み層を組み込んで変換器の構造を変更することが提案されている. 本研究では,視覚変換器の学習を安定化させる方法を検討する. 本研究では、視覚タスクにおける変換器の学習が不安定なのは、自己吸着層が入力画像の異なるパッチを類似した潜在的な表現にマッピングする傾向があり、特に層数が多い場合には情報が失われて性能が低下するという、過平滑化問題に起因すると考えられる。 この問題を解決するために,我々はいくつかの手法を提案する.例えば,多様性を促進するために追加の損失関数を導入し,情報の損失を防ぎ,Cutmixの追加のパッチ分類損失によって異なるパッチを識別する. 提案した手法により、学習が安定し、より広く、より深いビジョン変換器を学習することができ、追加の教師や追加の畳み込み層を導入することなく、ImageNet検証セットで85.0%のトップ1精度を達成したことを示します。 我々のコードはこのhttps URLで公開されます。
https://github.com/ChengyueGongR/PatchVisionTransformer