最新のコンピュータビジョンシステムは、あらかじめ決められたオブジェクトのカテゴリーを予測するように訓練されています。このような限定された形のスーパービジョンでは、他の視覚概念を特定するためにラベル付けされたデータが必要となるため、その汎用性と有用性が制限されています。画像についての生のテキストから直接学習することは、はるかに広範なスーパービジョンのソースを活用する有望な代替手段である。我々は、インターネットから収集した4億組の画像（画像、テキスト）のデータセット上で、どのキャプションがどの画像の年齢に合うかを予測するという単純な事前学習タスクが、SOTA画像表現をスクラッチから学習する効率的でスケーラブルな方法であることを実証した。事前学習の後、自然言語を用いて学習した視覚概念を参照することで、下流のタスクにモデルをゼロショットで移行させることができます。我々はこのアプローチの性能を、OCR、動画のアクション認識、ジオローカリゼーション、および多くの種類の細かい粒度の物体分類などのタスクにまたがる30以上の異なる既存のコンピュータ・ヴィジョンのデータセットでベンチマークを行うことによって研究している。このモデルは、ほとんどのタスクに非自主的に適用され、データセット固有のトレーニングを必要とせず、完全に教師付きのベースラインと競合することがよくあります。例えば、128万個の訓練例を使用することなく、ImageNetゼロショット上の元のResNet-50の精度を一致させることができました。

Learning Transferable Visual Models From Natural Language Supervision

paper
- https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language.pdf
github
- https://github.com/openai/CLIP
データセット
- WebImageText(WIT)
project
- https://openai.com/blog/clip/

スクリーンショット 2021-01-22 12 10 00

まとめ

どんなもの？
- どの画像がどのキャプションとマッチしているかを予測する事前訓練を行うモデル．推論時に入力画像に対してキャプション部分のクラス名を変えることで任意クラスの分類器を作成できる．訓練データはwebベースの画像/テキスト4億ペアで，ImageNetの訓練データを使わずzero shotで教師ありResNet50と互角などの性能が出る
- 提案手法をContrastive Language-Image Pre-training(CLIP)と呼ぶ
先行研究と比べてどこがすごい？
- 30以上のデータセットでのzeroshot transferで，従来のタスク固有の教師ありモデルと互角
技術や手法のキモはどこ？
- image encoderとtext encoderを一緒に学習させ，(image, text)ペアの正しいペアリングを予測するように学習する．テスト時にはターゲットデータセットのクラスの説明のembeddingによってtext encoderがzero shot linear classifierを合成
  - image encoderはResNet-D(Heら2019)の変種
  - text encoderはRadfordら2019の変更を加えたTransformer
    - lower cased BPEで語彙数を49152，計算効率のために最大系列長は76に制限．
- contrastive objectiveで学習する
  - N個の(image, text)ペアがあり，CLIPはNxNの可能な(image, text)ペアのどれがバッチ内で実際に起こっているか予測するよう訓練される
  - CLIPはimage encoderとtext encoderを同時訓練してマルチモーダル埋め込み空間を学習し，バッチ内のN個のrealペアのimage text embeddingのcosine 類似度を最大化し，N^2-Nの正しくないペアのembeddingに対する類似度を最小化する．これらの類似度スコアの対称cross entropy lossを最小化する．
- 推論時に，A photo of a {label}のような文章の形でクラスラベルを入力することで，ラベル単体を入力するよりaccが1.3ポイント程改善
どうやって有効だと検証した？
- 27個のデータセットで，zero shot CLIPとResNet50特徴で訓練した教師あり線形分類器の性能を比較
- zero shot CLIPと4から16shotの公開モデル(BiT, SimCLRなど)を利用した線形分類器で比較
- ImageNetで学習して，それとは分布が異なるデータセットに対するロバスト性の比較
- 人間のzero shot, few shot分類能力との比較
- WITデータセット内のデータの下流データセットと重複によりaccが増加している可能性を考え，その影響度合いの調査
- CLIPがネットから得たデータに付随する社会的バイアスをどの程度学習しているか検証
議論はある？
- 衛星画像分類，腫瘍検出，合成物体カウント，自動運転用標識認識，距離認識，のような複雑なタスクでは性能を発揮しない
次に読むべき論文は？
- 標準化text-to-textモデル
  - McCann, B., Keskar, N. S., Xiong, C., and Socher, R. The natural language decathlon: Multitask learning as ques-tion answering. arXiv preprint arXiv:1806.08730, 2018.
  - Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019.
  - Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I.Languagemodelsareunsupervisedmultitasklearners. 2019.
- テキストから画像特徴を学習する能力を示した
  - Desai, K. and Johnson, J. Virtex: Learning visual rep-resentations from textual annotations. arXiv preprint arXiv:2006.06666, 2020.
    - VirTex
  - Bulent Sariyildiz, M., Perez, J., and Larlus, D. Learning visual representations with caption annotations. arXiv e-prints, pp. arXiv–2008, 2020.
    - ICMLM
  - Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
    - ConVIRT．本論文のCLIPはこれをシンプル化したもの
- contrastive learning
  - Tian, Y., Krishnan, D., and Isola, P. Contrastive multiview coding. arXiv preprint arXiv:1906.05849, 2019.
    - 画像のcontrastive表現学習．predictiveより良い表現が学習できる
  - Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
    - 医療画像分野でのcontrastive (text, image)の表現学習
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I. Language models are unsupervised multitask learners. 2019.
  - text encoderのtransformerに対して加えた変更
- Li,A.,Jabri,A.,Joulin,A.,andvanderMaaten,L.Learningvisual n-grams from web data. In Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017.
  - データセットに対するzero-shot転移を最初に行った研究
その他

e4exp / paper_manager_abstract

Learning Transferable Visual Models From Natural Language Supervision #259

Learning Transferable Visual Models From Natural Language Supervision

まとめ