McCann, B., Keskar, N. S., Xiong, C., and Socher, R. The natural language decathlon: Multitask learning as ques-tion answering. arXiv preprint arXiv:1806.08730, 2018.
Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., and Liu, P. J. Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I.Languagemodelsareunsupervisedmultitasklearners. 2019.
テキストから画像特徴を学習する能力を示した
Desai, K. and Johnson, J. Virtex: Learning visual rep-resentations from textual annotations. arXiv preprint arXiv:2006.06666, 2020.
VirTex
Bulent Sariyildiz, M., Perez, J., and Larlus, D. Learning visual representations with caption annotations. arXiv e-prints, pp. arXiv–2008, 2020.
ICMLM
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
ConVIRT.本論文のCLIPはこれをシンプル化したもの
contrastive learning
Tian, Y., Krishnan, D., and Isola, P. Contrastive multiview coding. arXiv preprint arXiv:1906.05849, 2019.
画像のcontrastive表現学習.predictiveより良い表現が学習できる
Zhang, Y., Jiang, H., Miura, Y., Manning, C. D., and Lan-glotz, C. P. Contrastive learning of medical visual repre-sentations from paired images and text. arXiv preprint arXiv:2010.00747, 2020.
医療画像分野でのcontrastive (text, image)の表現学習
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever,I. Language models are unsupervised multitask learners. 2019.
text encoderのtransformerに対して加えた変更
Li,A.,Jabri,A.,Joulin,A.,andvanderMaaten,L.Learningvisual n-grams from web data. In Proceedings of the IEEE International Conference on Computer Vision, pp. 4183–4192, 2017.
最新のコンピュータビジョンシステムは、あらかじめ決められたオブジェクトのカテゴリーを予測するように訓練されています。 このような限定された形のスーパービジョンでは、他の視覚概念を特定するためにラベル付けされたデータが必要となるため、その汎用性と有用性が制限されています。 画像についての生のテキストから直接学習することは、はるかに広範なスーパービジョンのソースを活用する有望な代替手段である。 我々は、インターネットから収集した4億組の画像(画像、テキスト)のデータセット上で、どのキャプションがどの画像の年齢に合うかを予測するという単純な事前学習タスクが、SOTA画像表現をスクラッチから学習する効率的でスケーラブルな方法であることを実証した。 事前学習の後、自然言語を用いて学習した視覚概念を参照することで、下流のタスクにモデルをゼロショットで移行させることができます。 我々はこのアプローチの性能を、OCR、動画のアクション認識、ジオローカリゼーション、および多くの種類の細かい粒度の物体分類などのタスクにまたがる30以上の異なる既存のコンピュータ・ヴィジョンのデータセットでベンチマークを行うことによって研究している。 このモデルは、ほとんどのタスクに非自 主的に適用され、データセット固有のトレーニングを必要とせず、完全に教師付きのベースラインと競合することがよくあります。 例えば、128万個の訓練例を使用することなく、ImageNetゼロショット上の元のResNet-50の精度を一致させることができました。