Can Vision Transformers Learn without Natural Images?

e4exp commented 3 years ago

https://arxiv.org/abs/2103.13023
2021

ヴィジョン・トランスフォーマー(ViT)の事前学習は、自然な画像と人の注釈付きラベルがなくても完了できるのだろうか？ ViTの事前学習には、大規模データセットと人の注釈付きラベルに大きく依存しているように見えるが、最近の大規模データセットには、プライバシー侵害、不十分な公平性の保護、手間のかかる注釈などの問題がある。本論文では，画像収集やアノテーションの手間をかけずにViTを事前学習させる．提案するフレームワークは、SimCLRv2やMoCov2といった高度な自己教師付き学習（SSL）手法を、事前学習に自然な画像を用いることなく部分的に上回ることを実験的に検証した。さらに，自然画像を用いずに事前学習したViTは，ImageNetで事前学習したViTとは異なる可視化結果を得ることができるが，自然画像データセットをかなりの範囲で解釈することができる．例えば，CIFAR-10データセットにおける性能は，我々の提案97.6対SimCLRv2 97.4対ImageNet 98.0となっている．

e4exp commented 3 years ago

スクリーンショット 2021-03-31 10 16 57

スクリーンショット 2021-03-31 10 19 35

スクリーンショット 2021-03-31 10 21 30

スクリーンショット 2021-03-31 10 23 38

e4exp commented 3 years ago

結論

本研究では，Formula-Driven Supervised Learning (FDSL)の枠組みを用いて，自然な画像と人間が注釈をつけたラベルを用いずにVision Transformers (ViT)を学習することに成功した．我々が開発したFractalDBを用いたViTは、人間が注釈をつけたImageNetの事前学習モデルと同等の性能率を達成し、SimCLRv2の自己教師付きImageNet事前学習モデルを部分的に上回り、MoCov2を含む他の自己教師付き事前学習手法を上回った。実験結果によると、以下のような知見が得られた。

FractalDBで事前学習したViTによる特徴表現。 FractalDBで事前学習したViTは、ImageNet1kで事前学習したモデルと比較して、最初の線形エンベッディングでは異なる特徴表現を獲得し（図2(a)）、配置された位置エンベッディングでは同様の特徴表現を獲得しました（図2(b)）。また、図4(d)は、ViTが事前学習の段階で、輪郭部分に注目する傾向があることを示しています。これは、ImageNet-1kの事前学習モデルに比べて、より広い範囲での特徴取得が可能になったと考えられます（図2(c)）。また、フラクタルの分類に使われる複雑な輪郭線についても、事前学習で理解できました。

自然画像や人の注釈付きラベルがなくても，ViTの事前学習は完了するのか？ SSL方式との比較（Table 8）によると，FractalDB-10kの性能は，ImageNet上の128万枚の自然画像で学習されたSimCLRv2によるViTの事前学習の精度に匹敵することが示されました． FractalDB-10kでは10M枚の画像を使用していますが、事前学習の段階では自然画像は全く使用していません。したがって、FDSLを用いた事前学習データセットを用いて、人間のアノテーションを用いた教師あり学習の精度を超えることができれば、AI倫理や画像の著作権の観点からも安全にViTを学習することができます（表7）。

e4exp / paper_manager_abstract

Can Vision Transformers Learn without Natural Images? #299