BEiT: BERT Pre-Training of Image Transformers

1 はじめに

Transformer (Vaswani et al., 2017) は、コンピュータビジョンにおいて有望な性能を達成しています (Dosovitskiy et al., 2020; Touvron et al., 2020)。しかし、実証研究によると、ビジョントランスフォーマーは、畳み込みニューラルネットワークよりも多くの学習データを必要とします。このデータ不足の問題を解決するためには、大規模な画像データを活用するための自己教師付き事前学習が有望な解決策となります。対比学習（Chen et al., 2021; Xie et al., 2021）、自己蒸留（Caron et al., 2021）など、視覚トランスフォーマーのためのいくつかのストランドの方法が検討されている。

同時に、BERT（Devlin et al., 2019）は自然言語処理で大きな成功を収めています。そのマスクされた言語モデリングタスクは、まずテキスト内のある割合のトークンをランダムにマスクし、次に破損したテキストのトランスフォーマーのエンコーディング結果に基づいて、マスクされたトークンを復元する。 BERTに触発されて、我々は、ビジョンのTransformerを前もって訓練するために、ノイズ除去自動符号化のアイデアに目を向けましたが、これはビジョンコミュニティではあまり研究されていません。画像データに対して BERT スタイルの事前学習を直接適用することは困難です。まず第一に、Vision Transformerの入力単位である画像パッチのための事前に存在する語彙がありません。そのため、マスクされたパッチのすべての可能な候補を予測するために、単純にソフトマックス分類器を採用することはできません。対照的に、単語やBPE（Sennrich et al.2016）などの言語語彙はよく定義されており、自動符号化予測を容易にします。ストレートな代替案は、マスクされたパッチの生のピクセルを予測する回帰問題としてのタスクに関するものである。しかし、このようなピクセルレベルの回復タスクは、短距離依存性と高周波数の詳細を事前にトレーニングする際にモデリング能力を浪費する傾向がある（Ramesh et al.、2021）。我々の目標は、ビジョントランスフォーマーの事前学習のために、上記の問題を克服することである。

本研究では、自己教師付き視覚表現モデルBEIT（Bidirectional Encoder representation from Image Transformersの略）を紹介する。また、BERTにヒントを得て、事前学習タスクであるマスクド・イメージ・モデリング（MIM）を提案している。図1に示すように、MIMでは、各画像に対して2つのビュー、すなわち、画像パッチとビジュアルトークンを使用します。画像を格子状のパッチに分割し、これをバックボーン・トランスフォーマーの入力表現とします。さらに、画像を離散的な視覚的トークンに「トークン化」します。トークンは、離散的VAE（Ramesh et al. 事前学習の際には、画像パッチの一部をランダムにマスクし、その破損した入力をTransformerに与えます。このモデルは、マスクされたパッチの生のピクセルの代わりに、元の画像の視覚的トークンを復元するように学習します。自己教師付き学習を行い、事前に学習させたBEITを、画像分類とセマンティックセグメンテーションという2つのタスクで微調整します。

実験の結果、BEITは、最初からの学習と過去の強力な自己教師付きモデルの両方を上回ることがわかった。さらに，BEITは，教師付きの事前学習を補完するものである． BEITの性能は、ImageNetラベルを用いた中間的な微調整によってさらに向上させることができる。アブレーションの研究では、我々の提案した技術が、画像データに対するBERTスタイルの事前学習の有効性にとって重要であることを示している。性能とは別に、収束速度と微調整の安定性の向上により、エンドタスクのトレーニングコストを削減することができる。さらに、自己教師付きBEITは、事前学習によって合理的な意味領域を学習することができ、画像に含まれる豊富な監督信号を解き放つことができることを実証している。我々の貢献は以下のように要約される。

本論文では、ビジョントランスフォーマーを自己教師付きで事前学習するためのマスク付き画像モデリングタスクを提案する。また、変分自動符号化器の観点から理論的に説明する。
BEITの前学習を行い、画像分類やセマンティックセグメンテーションなどの下流のタスクで広範囲な微調整実験を行った。
その結果、自己教師付きBEITの自己注意メカニズムは、人間のアノテーションを使わずに、意味領域とオブジェクトの境界を区別することを学習することを示した。

e4exp / paper_manager_abstract

BEiT: BERT Pre-Training of Image Transformers #531

1 はじめに