Open e4exp opened 3 years ago
Transformer (Vaswani et al., 2017) は、コンピュータビジョンにおいて有望な性能を達成しています (Dosovitskiy et al., 2020; Touvron et al., 2020)。 しかし、実証研究によると、ビジョントランスフォーマーは、畳み込みニューラルネットワークよりも多くの学習データを必要とします。 このデータ不足の問題を解決するためには、大規模な画像データを活用するための自己教師付き事前学習が有望な解決策となります。 対比学習(Chen et al., 2021; Xie et al., 2021)、自己蒸留(Caron et al., 2021)など、視覚トランスフォーマーのためのいくつかのストランドの方法が検討されている。
同時に、BERT(Devlin et al., 2019)は自然言語処理で大きな成功を収めています。 そのマスクされた言語モデリングタスクは、まずテキスト内のある割合のトークンをランダムにマスクし、次に破損したテキストのトランスフォーマーのエンコーディング結果に基づいて、マスクされたトークンを復元する。 BERTに触発されて、我々は、ビジョンのTransformerを前もって訓練するために、ノイズ除去自動符号化のアイデアに目を向けましたが、これはビジョンコミュニティではあまり研究されていません。 画像データに対して BERT スタイルの事前学習を直接適用することは困難です。 まず第一に、Vision Transformerの入力単位である画像パッチのための事前に存在する語彙がありません。 そのため、マスクされたパッチのすべての可能な候補を予測するために、単純にソフトマックス分類器を採用することはできません。 対照的に、単語やBPE(Sennrich et al.2016)などの言語語彙はよく定義されており、自動符号化予測を容易にします。 ストレートな代替案は、マスクされたパッチの生のピクセルを予測する回帰問題としてのタスクに関するものである。 しかし、このようなピクセルレベルの回復タスクは、短距離依存性と高周波数の詳細を事前にトレーニングする際にモデリング能力を浪費する傾向がある(Ramesh et al.、2021)。 我々の目標は、ビジョントランスフォーマーの事前学習のために、上記の問題を克服することである。
本研究では、自己教師付き視覚表現モデルBEIT(Bidirectional Encoder representation from Image Transformersの略)を紹介する。 また、BERTにヒントを得て、事前学習タスクであるマスクド・イメージ・モデリング(MIM)を提案している。 図1に示すように、MIMでは、各画像に対して2つのビュー、すなわち、画像パッチとビジュアルトークンを使用します。 画像を格子状のパッチに分割し、これをバックボーン・トランスフォーマーの入力表現とします。 さらに、画像を離散的な視覚的トークンに「トークン化」します。 トークンは、離散的VAE(Ramesh et al. 事前学習の際には、画像パッチの一部をランダムにマスクし、その破損した入力をTransformerに与えます。 このモデルは、マスクされたパッチの生のピクセルの代わりに、元の画像の視覚的トークンを復元するように学習します。 自己教師付き学習を行い、事前に学習させたBEITを、画像分類とセマンティックセグメンテーションという2つのタスクで微調整します。
実験の結果、BEITは、最初からの学習と過去の強力な自己教師付きモデルの両方を上回ることがわかった。 さらに,BEITは,教師付きの事前学習を補完するものである. BEITの性能は、ImageNetラベルを用いた中間的な微調整によってさらに向上させることができる。 アブレーションの研究では、我々の提案した技術が、画像データに対するBERTスタイルの事前学習の有効性にとって重要であることを示している。 性能とは別に、収束速度と微調整の安定性の向上により、エンドタスクのトレーニングコストを削減することができる。 さらに、自己教師付きBEITは、事前学習によって合理的な意味領域を学習することができ、画像に含まれる豊富な監督信号を解き放つことができることを実証している。 我々の貢献は以下のように要約される。
自己教師付き視覚表現モデルBEiT(Bidirectional Encoder representation from Image Transformersの略)を紹介する。 自然言語処理分野で開発されたBERTに倣い、ビジョントランスフォーマーを事前学習するためのマスク付き画像モデリングタスクを提案する。 具体的には、事前学習において、各画像は、画像パッチ(16x16ピクセルなど)とビジュアルトークン(離散的なトークンなど)の2つのビューを持っています。 まず,元の画像をビジュアルトークンに「トークン化」します. 次に、いくつかの画像パッチをランダムにマスクして、バックボーンのTransformerに送り込みます。 事前学習の目的は、破損した画像パッチに基づいて、元の視覚的トークンを復元することです。 BEiTを事前学習した後、事前学習したエンコーダにタスク層を追加することで、下流のタスクでモデルのパラメータを直接微調整します。 画像の分類と意味的なセグメンテーションに関する実験結果によると、本モデルは、これまでの事前学習法と競合する結果を得ることができた。 例えば,ImageNet-1Kにおいて,ベースサイズのBEiTは83.2%のトップ1精度を達成し,同じ設定でスクラッチのDeiTの学習(81.8%)を大幅に上回った. さらに,ラージサイズのBEiTは,ImageNet-1Kのみで86.3%を達成し,ImageNet-22Kで教師ありの事前学習を行ったViT-L(85.2%)をも上回りました. コードおよび事前学習済みモデルは,このhttps URLから入手できます.
https://aka.ms/beit