上図は、JFT で事前学習した ViT を各々のファインチューニング用データセット(ImageNetなど)でファインチューニングした ViT と既存の画像分類モデル(Bit-L, Noisy Student)との定量的比較結果を示した図である。
全てのデータセットで、事前学習 + ファインチューニングした ViT のほうが、優れた品質スコアを実現していることがわかる。また学習時間も大幅に削減されていることがわかる。
既存の画像分類モデルとの転移学習品質の定量的比較検証
上図は、事前学習した ViT と既存の画像分類モデル(BiT-L, VIVI-Ex, S4L)に対して、転移学習の品質評価用データセット(VTAB)でファインチューニングした場合の品質スコアを示した図である。
VTAB に含まれる転移学習先のデータセット{Natural(一般的な画像データセット)、Specialized(医療データなどの専門的な画像データセット)、Structured(人工3D空間などの画像データセット)}それぞれに対して、ViT が最も優れた品質スコアになっており、ViT の転移学習品質が優れていることがわかる。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
アーキテクチャの全体像
Vision Transformer のファインチューニング ImageNet のような中規模のデータセットで学習する場合は、従来の CNN ベースのアーキテクチャのほうが Transofomer よりも優れている。一方で、より大規模なデータセット(1,400万〜3,000万)で学習した場合は、Transfomer ベースのアーキテクチャのほうが優れている結果になった。 とはいえ、このような大規模データセットを自前で用意するのは困難であるので、Vision Transformer を新たなデータセットで学習する場合は、大規模データセットで事前学習した Vision Transformer を新たなデータセットでファインチューニングして利用する形式が一般的になる。
Vision Transformer のファインチューニングは、出力層での MLP をタスクに応じて入れ替えること(新しいデータセットのクラス分類数に応じた MLP 出力層の数にするなど)で実現するが、更に以下の3つの工夫も取り入れている
4. どうやって有効だと検証した?
学習用データセット
Vision Transformer の事前学習用データセット
Vision Transformer のファインチューニング用データセット
実験設定
既存の画像分類モデルとの定量的品質比較
既存の画像分類モデルとの転移学習品質の定量的比較検証
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献