#3 Learning Transferable Visual Models From Natural Language Supervision (CLIP)

論文情報

タイトル：Learning Transferable Visual Models From Natural Language Supervision
発表年：2021
URL：https://arxiv.org/abs/2103.00020
github：https://github.com/openai/CLIP

一言説明

画像とテキストのペアを用いて、その類似度を最大化することで学習を行う画像×自然言語処理な学習機構
ファインチューニングなし（zero shot transfer） で、ImageNetで学習したResNet-50と比較して、30個中16のデータセットで高い精度を実現

モチベーション

自然言語処理の分野で発展している、未加工の文章から事前学習を行う、というのを画像処理分野でも実現する試みの発展
テキストから画像表現を学習するモデルはあるが、以下の問題点がある
- ベンチマークテストにて、既存の教師あり学習よりも精度が低い
- 弱教師あり学習では比較的良い精度を出せているが、予測を行うために静的なソフトマックス関数を利用しているため、テキストから画像表現 を学習する、という自由度を制限してしまう
以上を踏まえて、自然言語処理を利用した画像表現の学習の可能性を探ることを1つの目的として、zero-shot transferでの高い予測の実現を狙っている

（用語補足）zero-shot transferとは？

与えたことのないデータ（ラベル）に対して予測を行うタスク
学習済みモデルに、少数サンプルを学習させるものをfew-shot transferという

技術や手法のキモ

本論文はモデルの改良がメインではなく、VirTexを参考に、ConVIRTをシンプルにしたモデルを利用している。そのため、詳細なネットワーク構造の変更は割愛し、学習機構を中心に記載する

Contrastive Language-Image Pre-training（CLIP）

CLIPの学習機構の概要は以下の様になる

clip_architecture

ポイント

画像エンコーダとテキストエンコーダから出力されたベクトルにて、ペアとなるデータのコサイン類似度を最大化しつつ、それ以外の$N^2-N$個の特徴の類似度を最小化するように学習する。これにより、画像に一致するテキスト表現を予測するタスクよりも学習効率が4倍高くなる。

擬似コードは以下のようになる

# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, l] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter
# extract feature representations of each modality
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]
# joint multimodal embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)
# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)
# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2

学習

画像エンコーダ

本研究では、画像エンコーダは5つのResNetと3つのVision Transformerを用いて実験を行い、それぞれ32エポック学習を行った。以下にそのモデルを記載する。

ResNet-50
ResNet-101
ResNet-50×4
ResNet-50×16
ResNet-50×64
ViT-B/32
ViT-B/16
ViT-L/14

テキストエンコーダ

Transformerを利用。パラメータは以下のようになる

レイヤー数: 12
隠れ層の次元: 512
Attension Head: 8

データセット

インターネットから集められた画像-テキスト4億ペアのデータセットを使用している。収集条件は以下になる

Wikipediaで100回以上出現する単語をベースに検索して出てきた画像-テキストのペアを抽出
検索単語数: 50万個
各検索単語の上限: 20,000ペア

学習時間

ResNet-50×64
- 592個のV100 GPUを用いて18日
Vit-L/14
- 256個のV100 GPUを用いて12日

実験

本論文では様々な実験・検証を行っているため、以下の評価をピックアップして記載する

Prompt EngineeringとEnsembling
zero shot vs linear probe ResNet
few shot performance
zero shotと同程度の精度になるデータ数

Prompt EngineeringとEnsembling

スクリーンショット 2022-07-23 23 31 24

画像のラベルが名詞のみの場合に、そのままテキストエンコーダに入力するのではなく、"A photo of a {label}"という形に変更する。これにより、1.3%の精度向上が行える。

また、対象ラベルのカテゴリーやデータセットの情報を含めることで3.5%の精度向上が行える。

例
- 猫の画像に対するペアのテキスト: "A photo of cat, a type of pet. "
- 衛生から撮影した、日本のペアテキスト: "A satellite photo of a Japan"

Prompt Engineeringとensemblingを組み合わせることで、約5%の精度向上を行うことが出来る

zero shot vs linear probe ResNet

CLIPと、ImageNetで学習を行ったResNet-50を、linear probeでそれぞれのデータセットでチューニングしたモデルと精度比較を行った。比較は30個のデータセットを用いて行った。

（用語補足）linear probeとは？

学習済みモデルの最終層の出力を特徴量として、別のデータセットでロジスティクス回帰を学習する方法。これにより、どの特徴量が分類に寄与しているか定量化出来るため、説明可能なAIの手法として用いられる。

https://openreview.net/pdf?id=HJ4-rAVtl

結果

結果のグラフは以下のようになる

スクリーンショット 2022-07-23 23 32 15

グラフは、zero-shotのCLIPの正解率からLinear ProbeのResNet-50の正解率を引いた値となる。30のデータセットの内、16のデータセットでResNet50よりも高い精度で分類を行うことが出来る。

精度が高いデータセットの特徴
- Kinetics700、UCF101といった、Action Recognitionで用いられるデータセット
- ラベルが動詞であるため、名詞ベースのデータセットであるImageNetで学習したデータよりもよく特徴が捉えられてる？
精度が低いデータセットの特徴
- 特定の分野に特化したもの
- 衛星画像データセット（EuroSAT、RESISC45）
- リンパ腫瘍を見つけるデータセット（PatchCamelyon）
- 複雑なもの、抽象的なタスク
- 合成シーン内のオブジェクトのカウント（CLEVRCounts）
- ドイツの交通標識認識（GTSRB）
- 最寄り車までの距離認識（KITTI Distance）

few shot performance

次に、few-shotで学習したモデルと、zero-shotのCLIPとの精度比較を行った。本実験では、1クラスあたりのサンプル数を1,2,4,8,16と増やしていき、平均スコアを比較した。

スクリーンショット 2022-07-23 23 32 25

注目すべきは、zero-shotのCLIPと同程度の精度になるLinear Probe CLIPは、各クラス4サンプル以上必要ということがわかる。更に、次点でスコアの高いBiT-Mの場合、16-shotで同等の性能になることがわかる。このことから、few-shotでのチューニングよりも、zero-shot CLIPの方が平均して高いスコアを出せる。

zero shotと同程度の精度になるデータ数

zero-shot CLIPと同等の精度を出すのに必要な各クラスのサンプル数を、データセット毎に調べた。ここでは厳密に精度を比較して必要なサンプル数を求めるのではなく、1,2,4,8,16,全データ、で精度を計算し、それを対数線形補間することで求めている。スクリーンショット 2022-07-23 23 32 35

グラフにも書いてあるとおり、平均20.8、中央地5.4となっている。一方で、EuroSATとFlowers102データセットでは、1サンプルでもzero-shot CLIPよりも高い精度を実現できるものもある。

更に、全データを用いたlinear probeとzero shot CLIPでの比較と、相関を取った図が以下になる。

スクリーンショット 2022-07-23 23 32 43

破線の$y = x$線は、全データで学習したLinear Probeと同等の性能を持つ最適なzero-shot分類機を表す。全データを用いたLinear Probe CLIPと比較すると、10~25%程度zero-shot CLIPの方が精度が悪化することがわかる。

課題

CLIPはzero-shotでも比較的高いパフォーマンスを発揮できている。しかし、以下の課題がある。

利用データの重複
- 今回はネット上から4奥個の画像・テキストのペアを収集している。そのため、テストデータの画像を既に学習してしまっている可能性がある。現場、こういった大規模なラベルなし事前学習におけるデータのリークに関するベストプラクティスが存在しないため、今後の課題となっている。
SOTAに匹敵する精度の向上
- 様々なタスクにおけるSOTAを実現するのには、約1000倍の計算量の増加が必要であると推定される
特定タスクでの精度向上
- 自動車や花の種類といった細かな分類タスク
- 抽象的なタスク
- データセットに含まれない新しいタスク
データ効率の悪さ

読んだ所感

新技術というより、画像と自然言語のマルチモーダルな手法の技術検証、というスタンスなのだなと初めて知った
最低何枚程度の画像があれば使えるレベルの精度になるか気になる
- さすがに4億枚の画像なんて準備できないし…
専門的なタスクや細かいカテゴリーの分類が得意ではないこと、few-shotだと精度が基本下がることから、ビジネスでの利用は意外と厳しい？
有名どころの論文なため、日本語の解説記事が多く、翻訳が上手く行かないときに何とかなるのはありがたかった

まとめきれなかった内容

以下の内容は割愛したため、必要があれば追加でのまとめを行いたい。

モデルに関して
- 画像エンコーダのネットワークの細かな変更
実験
- 表現学習
- ロバスト性
社会的インパクト
- 差別、偏見に近い学習を行ってしまう問題等

aifield / CV_News