Learning Transferable Visual Models From Natural Language Supervision

Ref

https://qiita.com/sonoisa/items/00e8e2861147842f0237
- 日本語版事前学習モデル
https://arxiv.org/abs/2103.00020
https://deepsquare.jp/2021/01/clip-openai/
https://www.ogis-ri.co.jp/otc/hiroba/technical/similar-document-search/part19.html#fn5

概要

モチベーション
- 画像にアノテーションをつけるのはとんでも無くコストがかかる
- 未加工の画像・文章(=labelなしデータ)から直接学習できないのか
  - 従来手法はあるが、精度が低い
- 弱教師学習手法あるが、静的なソフトマックスを使っていて、出力の柔軟性を欠く。ゼロショットの能力を制限する
- 精度が低いのは、学習データセットが小さいことが要因。
- → ネットから画像, テキストを集めて4億組のデータセットで構築した
- モデルアーキテクチャの改良は主眼でなく、学習スキーマの提示が目的
結果
- Image NetモデルのSOTAより効率が良い
- ゼロショットCLIPモデルは同制度のImage Netモデルより遥かにロバスト
アプローチ
- 自然言語に含まれる表現から画像表現が指し示すものを学習する
  - ↑これは新しい考えではない
  - 自然言語の表現を学習表現として取り込みたい
  - (拡張性が高くなるため)
- 学習データセットの構築
  - タイトル・説明がファイル名に反映されている画像データ
  - 50万のクエリからテキストが含まれているペアを検索
  - Wikiで100回以上登場する全ての単語を検索
- モデルの選択方法
  - 効率性に設定
- モデル概要
  - テキスト内の単語と画像の紐付けを正確に予測するとタスクが難しくなり、効率性が落ちる
  - テキスト全体がどの画像とペアになっているかを予測する代理タスクを解かせる
  - Nこのペアのバッチを与え、N*Nこの可能性うち、どれがマッチングするかを予測する
    - 画像enc, text encを同時に訓練し、バッチないの実ペアの画像とtextのembの cos simを最大化させる
    - 不正解なペアのembのcos simを最小化させる
  - モデルの注意点
    - 過学習対策はなし
    - 画像 enc は0から学習
    - enc → multi modal 空間のマッピンングは線形射影
  - 学習
    - 32epoch, 32,768 mini-batch, Adam,
実験
- 0ショット転移(未知のオブジェクトカテゴリに対する画像分類) の性能評価
- 各データセットについて、データセット内の全てのクラス名を予測させる
- プロンプトエンジニアリング
  - 多義語、単語だけ出力するケースがある。 "a photo of a {label} "と長いプロンプトを与えることで精度向上させた
  - ベンチマークデータセットのタイプがわかる場合、追加情報を与えると精度向上.
  - プロンプトのアンサンブルで精度向上
  - ゼロショット > few shot
    - ゼロショットはNLPを介して生成されるため、視覚的な概念を直接指定できる
    - few ショットは訓練例から間接的に概念を推察する必要がある
    - ゼロショット以上の精度を出すためのショット数はデータセットごとに異なる

Learning Transferable Visual Models From Natural Language Supervision

モチベーション

画像にアノテーションをつけるのはとんでも無くコストがかかるので、未加工の画像・文章(=labelなしデータ)から直接学習したい。

弱教師学習手法あるが、静的なソフトマックスを使っていて、出力の柔軟性を欠く。ゼロショットの能力を制限する。従来手法が精度が低いのは、学習データセットが小さいことが要因。 →ネットから画像, テキストを集めて4億組のデータセットで構築した。

利用データ

タイトル・説明がファイル名に反映されている画像データ
50万のクエリからテキストが含まれているペアを検索
Wikiで100回以上登場する全ての単語を検索

学習

(画像、テキスト)ペアをN個与え、N*Nのうち、どれがマッチングするかを予測する。画像enc, text encを同時に訓練し、正解ペアの画像とtextのembの cos simを最大化・不正解なペアのembのcos simを最小化させる。

推論(Zero-shot画像分類)

プロンプトと画像を与え、正解を埋めてもらう。

zerebom / paper-books

Learning Transferable Visual Models From Natural Language Supervision #56

Ref

概要

Learning Transferable Visual Models From Natural Language Supervision

モチベーション

利用データ

学習

推論(Zero-shot画像分類)