Yagami360 / machine-learning-papers-survey

機械学習関連の論文Survey用レポジトリ
135 stars 6 forks source link

[Vision Transformer] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale #116

Open Yagami360 opened 3 years ago

Yagami360 commented 3 years ago

0. 論文情報・リンク

1. どんなもの?

2. 先行研究と比べてどこがすごいの?

この論文では ImageNet (130万)のようなデータセットも小規模データセットとして扱っている(実際には小規模ではないが、、、)。そして ImgaeNet のような小規模〜中規模データセットでは従来の CNN ベースのアーキテクチャのほうが優れていることに注意。

尚、Vision Transformer を新たなデータセットで学習する場合は、大規模データセットで事前学習した Vision Transformer を新たなデータセットでファインチューニングして利用する形式が一般的になることに注意

3. 技術や手法の"キモ"はどこにある?

4. どうやって有効だと検証した?

5. 議論はあるか?

6. 次に読むべき論文はあるか?

7. 参考文献