Open zerebom opened 2 years ago
画像にアノテーションをつけるのはとんでも無くコストがかかるので、未加工の画像・文章(=labelなしデータ)から直接学習したい。
弱教師学習手法あるが、静的なソフトマックスを使っていて、出力の柔軟性を欠く。ゼロショットの能力を制限する。従来手法が精度が低いのは、学習データセットが小さいことが要因。 →ネットから画像, テキストを集めて4億組のデータセットで構築した。
(画像、テキスト)ペアをN個与え、N*Nのうち、どれがマッチングするかを予測する。画像enc, text encを同時に訓練し、正解ペアの画像とtextのembの cos simを最大化・不正解なペアのembのcos simを最小化させる。
プロンプトと画像を与え、正解を埋めてもらう。
Ref
概要