zerebom / paper-books

@zerebom が読んだ技術書、論文をまとめています。推薦システム系が多いです。
https://github.com/zerebom/paper-books/issues
2 stars 0 forks source link

Learning Transferable Visual Models From Natural Language Supervision #56

Open zerebom opened 2 years ago

zerebom commented 2 years ago

Ref

概要

zerebom commented 2 years ago

Learning Transferable Visual Models From Natural Language Supervision

モチベーション

画像にアノテーションをつけるのはとんでも無くコストがかかるので、未加工の画像・文章(=labelなしデータ)から直接学習したい。

弱教師学習手法あるが、静的なソフトマックスを使っていて、出力の柔軟性を欠く。ゼロショットの能力を制限する。従来手法が精度が低いのは、学習データセットが小さいことが要因。 →ネットから画像, テキストを集めて4億組のデータセットで構築した。

利用データ

学習

(画像、テキスト)ペアをN個与え、N*Nのうち、どれがマッチングするかを予測する。画像enc, text encを同時に訓練し、正解ペアの画像とtextのembの cos simを最大化・不正解なペアのembのcos simを最小化させる。

image

推論(Zero-shot画像分類)

プロンプトと画像を与え、正解を埋めてもらう。

image