[Vision Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2010.11929
公開日時：2020/10/22
組織 : Google Brain, Google Research
被引用数（記事作成時点）：238 件
実装コード（公式：JAX）: https://github.com/google-research/vision_transformer
実装コード（非公式：PyTorch）: https://github.com/jeonsworld/ViT-pytorch
Publication : ICLR2021

1. どんなもの？

NLP の分野で優れた性能を発揮している Transformer を画像分類タスクに適用できる形にした Vision Transformer（ViT）を提案。大規模データセット（1,400万〜3,000万）で学習した場合に、従来の ResNet のような CNN ベースのアーキテクチャよりも優れた性能を発揮することを実現

2. 先行研究と比べてどこがすごいの？

self-attention の構造をもつ Transformer は、自然言語処理（NLP）の分野で目覚ましい成果を収めている。一方で、画像系（CV）の分野でも、Transformer の成功に触発されて self-attention の構造を CNN に組み込んだ先行研究もいくつかあるが、依然として ResNet のような CNN ベースのアーキテクチャのほうが主流である。本手法では、Transformer の構造を殆ど変えることなく、画像分類タスクにも適用可能にした Vision Transformer（ViT）を提案し、1,400万〜3,000万程度の大規模データセットで学習した場合に、従来の ResNet のような CNN ベースのモデルよりも優れた性能を発揮することを実現している。

この論文では ImageNet （130万）のようなデータセットも小規模データセットとして扱っている（実際には小規模ではないが、、、）。そして ImgaeNet のような小規模〜中規模データセットでは従来の CNN ベースのアーキテクチャのほうが優れていることに注意。

尚、Vision Transformer を新たなデータセットで学習する場合は、大規模データセットで事前学習した Vision Transformer を新たなデータセットでファインチューニングして利用する形式が一般的になることに注意

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像
上図は、本モデル（Vision Transformer）のアーキテクチャの全体像を示した図である。 Vision Transformer では、以下のような処理が行われる。 1. 入力画像を画像パッチに分解してネットワークに入力する NLP における Tranfomer は、encoder-decoder 型のネットワークであり、入力系列の各トークン（単語）を encoder に並列的に入力するアーキテクチャになっていた。一方、本モデル（Vision Transformer）は、入力データとして画像データが入力されるが、Transfomer と同じような入力形式にするために、上図のように、入力画像をより小さなパッチ画像に分解して、各バッチ画像を並列的に encoder 側に入力するようにする。 2. Patch + Position Embedding（バッチ画像の埋め込みと位置情報の埋め込み）分解されたバッチ画像を１次元の Flatten なベクトルに変換した後に、以下の式のように、学習可能なパッチ画像の埋め込み変換 E で埋め込み空間に埋め込み、更に学習可能な位置情報の埋め込みテンソル E_pos を加算する。 > 埋め込み変換 E としては、例えば、ResNet などの CNN モデルを用いることができる。この場合は、画像パッチの Flatten 化は不要で画像パッチのまま入力できる。論文では、埋め込み変換 E として ResNet を採用したモデルを（CNNとTransfomer の）ハイブリッドモデルと呼んでいる。 > 位置情報の埋め込みテンソル（Position Embedding） E_pos は、次元数 (N+1)xD の学習可能なパラメーターのテンソル。Pytorch では、`nn.Parameter(torch.zeros(B, N+1, D))` などで実装可能 > cls トークン x_class は、ランダムな初期値から始まる学習可能なパラメーターになっている。Pytorch では、`nn.Parameter(torch.zeros(B, 1, D))` などで実装可能 3. Encoder 内部の処理 Vision Transformer の Encoder は、Transformer の encoder と同じ構成になっている。即ち、まず以下の式のように、Norm + Multi-Head Attention と残差接続の処理を行う。次に、以下の式のように、Norm + MLP と残差接続での処理を行う。 4. 出力処理 encoder からの出力に対して、以下の式のように Layernorm を行う。その後、y を MLP に入力し、最終的な出力（推論分類ラベル）を出力する。
Vision Transformer のファインチューニング ImageNet のような中規模のデータセットで学習する場合は、従来の CNN ベースのアーキテクチャのほうが Transofomer よりも優れている。一方で、より大規模なデータセット（1,400万〜3,000万）で学習した場合は、Transfomer ベースのアーキテクチャのほうが優れている結果になった。とはいえ、このような大規模データセットを自前で用意するのは困難であるので、Vision Transformer を新たなデータセットで学習する場合は、大規模データセットで事前学習した Vision Transformer を新たなデータセットでファインチューニングして利用する形式が一般的になる。

Vision Transformer のファインチューニングは、出力層での MLP をタスクに応じて入れ替えること（新しいデータセットのクラス分類数に応じた MLP 出力層の数にするなど）で実現するが、更に以下の３つの工夫も取り入れている
1. 新しいデータセットでの画像解像度は、事前学習データセットでの画像解像度よりも大きい解像度にする。
2. ネットワークに入力する画像パッチの解像度は、事前学習データセットでの画像パッチと新しいデータセットでの画像パッチで同じ解像度にする。新しいデータセットでの元画像の解像度のほうが大きいので、新しいデータセットでの画像パッチの数は、事前学習データセットでの画像パッチの数よりも多くなる。
3. 画像パッチの数が変わると、事前学習した位置埋め込み E_pos が意味をなさなくなるので、元画像内の位置に応じて事前学習した位置埋め込み E_pos を２次元補間する？
３つ目の工夫の内容（元画像内の位置に応じて事前学習した位置埋め込み E_pos を２次元補間？）が良くわからなかった

本論文では、ファインチューニングを行う新規データセットとして、ImageNet や CIFAR データセット（この論文では小規模データセット扱い）を利用しているが、自前データセットの場合は一般的にこれらのデータセットよりも圧倒的に枚数が少なくなるので、このような自前データセットでファインチューニングした場合に、個々のタスクに十分に特化できるのか？

4. どうやって有効だと検証した？

学習用データセット
- Vision Transformer の事前学習用データセット
- Vision Transformer のファインチューニング用データセット
実験設定
既存の画像分類モデルとの定量的品質比較
上図は、JFT で事前学習した ViT を各々のファインチューニング用データセット（ImageNetなど）でファインチューニングした ViT と既存の画像分類モデル（Bit-L, Noisy Student）との定量的比較結果を示した図である。全てのデータセットで、事前学習 + ファインチューニングした ViT のほうが、優れた品質スコアを実現していることがわかる。また学習時間も大幅に削減されていることがわかる。
既存の画像分類モデルとの転移学習品質の定量的比較検証
上図は、事前学習した ViT と既存の画像分類モデル（BiT-L, VIVI-Ex, S4L）に対して、転移学習の品質評価用データセット（VTAB）でファインチューニングした場合の品質スコアを示した図である。 VTAB に含まれる転移学習先のデータセット｛Natural（一般的な画像データセット）、Specialized（医療データなどの専門的な画像データセット）、Structured（人工3D空間などの画像データセット）｝それぞれに対して、ViT が最も優れた品質スコアになっており、ViT の転移学習品質が優れていることがわかる。

5. 議論はあるか？

この論文では、ImageNet（130万）のデータセットも小規模データセットとして扱っている（実際には小規模ではないが、、、）。そして、ImageNet のような小規模〜中規模のデータセットで学習する場合は、従来の CNN ベースのアーキテクチャのほうが Transofomer よりも優れていて、より大規模なデータセット（1,400万〜3,000万）で学習した場合は、Transfomer ベースのアーキテクチャのほうが優れているという結論であることに注意。
実際には、1,400万〜3,000万のデータセットを準備するのは基本的に困難であるので、一般的には大規模データセットで事前学習した Vision Transformer を、新規データセットでファインチューニングしたものを利用する形になることに注意。本論文では、ファインチューニングを行う新規データセットとして、ImageNet や CIFAR データセット（この論文では小規模データセット扱い）を利用しているが、自前データセットの場合は一般的にこれらのデータセットよりも圧倒的に枚数が少なくなるので、このような自前データセットでファインチューニングした場合に、個々のタスクに十分に特化できるのか？という疑問点が残る
上記理由により、画像分野で Transformer が CNN から置き換わるのはまだ先であるという印象
Vision Transformer で多量の学習用データセットが必要な理由は、Transfomer のアーキテクチャでは CNN のような位置不変性の構造がないためだと考えられる。そのため、Vision Transformer では画像のデータオーグメンテーション（DA）が CNN よりも更に有効だと考えられる。実際に後発論文の「TransGAN」では、DAが非常に有効であるという結果になっている。

6. 次に読むべき論文はあるか？

TransGAN: Two Transformers Can Make One Strong GAN

Yagami360 / machine-learning-papers-survey

[Vision Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale #116

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献