Learning Transferable Visual Models From Natural Language Supervision

Authur 筆者

Motivation なぜやろうとしたか

従来の画像分類タスクでは、ラベル付されたクラスのみを分類するための学習を行う。そのため、未知のクラスへの分類を行うにはラベル付きデータセットを追加して学習しなければならない。

このために新しいデータセットを用意するのは効率的でない。そのため、文章とセットにした学習方法を提案する。インターネット上の、画像と文章のセットを活用することで、未知のクラスの学習を効率的に行う。

Method 手法

インターネットで公開されている４億組の画像、テキストのペアを活用し、データセットを構築した。できるだけ幅広い概念をカバーするため、構築プロセスの一環として、50万件のクエリのいずれかをテキストに含む（画像、テキスト）ペアを検索する(?) このデータセットを略称WITとする。これを実現するために学習方法を重視した。

私たちのアプローチの概要標準的な画像モデルが画像特徴抽出器と線形分類器を共同で学習して何らかのラベルを予測するのに対し、CLIPは画像エンコーダとテキストエンコーダを共同で学習して、（画像、テキスト）学習例のバッチの正しいペアリングを予測します。テスト時には、学習したテキストエンコーダが、ターゲットデータセットのクラスの名前または説明を埋め込んで、ゼロショット線形分類器を合成する。(？)

図4. プロンプトエンジニアリングとアンサンブルはゼロショット性能を向上させる。文脈のないクラス名を使用するベースラインと比較して、プロンプトエンジニアリングとアンサンブルは、36のデータセットで平均してほぼ5ポイントゼロショット分類性能を向上させました。この改善は、ベースラインのゼロショット法で4倍の計算量を使用した場合と同様ですが、多くの予測で償却すると「無料」です。8?)

Insight 結果

Contribution 貢献の要約

自然言語からの学習は全くの新規の提案ではないけども、今後の期待ができる点で優秀だろう。自然言語の柔軟な表現をゼロショット転移を可能にする。テキストとの対の画像を発見するタスクにとどめて効率を４倍に向上させた。予測目的でなく、対比目的。 N個の画像とテキストのペアのバッチが与えられたとき、N^2のペアが全通りになり、そのうちのN個の正解のペアを予測する。像エンコーダとテキストエンコーダを共同で学習し、バッチ内のN組の画像とテキストの埋め込みの余弦類似度を最大化し、(?) N 2 - N組の不正確な組み合わせの埋め込みの余弦類似度を最小化することによって、マルチモーダル埋め込み空間を学習する。(?) これらの類似度スコアに対して、対称的なクロスエントロピー損失を最適化する。(?) 事前学習データセットが大きいため、過学習の影響は懸念事項ではない。CLIPをゼロから訓練。各エンコーダーの表現からマルチモーダル埋め込み空間へのマッピングに線形投影のみを使用する。(？) また、CLIPの事前学習データセットに含まれる（画像、テキスト）ペアの多くは一文のみであるため、テキストから一様に一文をサンプリングするZhang et al.（2020）のテキスト変換関数tuを削除しました。また、画像変換関数tvを簡略化する。また、リサイズされた画像からランダムな正方形の切り出しを行うことで、学習時に使用する唯一のデータ補強を行います。最後に、ソフトマックスのロジットの範囲を制御する温度パラメータτは、ハイパーパラメータとして回転しないように、ログパラメータ化された乗法スカラーとして学習中に直接最適化される。

Shinosuke7110 / read-papers