fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

TripletCLIP:合成視覚言語ネガティブサンプルを用いたCLIPの合成推論能力向上 #649

Open fulfulggg opened 2 hours ago

fulfulggg commented 2 hours ago

タイトル: TripletCLIP:合成視覚言語ネガティブサンプルを用いたCLIPの合成推論能力向上

リンク: https://arxiv.org/abs/2411.02545

概要:

対照言語画像事前学習(CLIP)モデルは、テキストと視覚モダリティ間の相互情報を最大化することで表現を学習します。そのため、CLIPのダウンストリームタスクにおける有効性は、学習データの性質に大きく依存します。しかし、既存の画像テキストデータセットは構成的な多様性に不足しており、CLIPの構成的推論能力を制限しています。本研究では、インコンテキスト学習を用いて「難しい」ネガティブキャプションを生成し、テキスト画像生成モデルで対応するネガティブ画像を合成することで、この問題を解決できることを示します。これらの難しいネガティブキャプションと画像を交互に使用してCLIPを学習する、新しい対照事前学習戦略を提案します。TripletCLIPと名付けたこの手法をCC3MやCC12Mなどの既存のデータセットに適用することで、CLIPの構成能力が向上し、SugarCrepeベンチマークにおいて同等の計算量で9%以上の絶対的な改善が見られたほか、ゼロショット画像分類と画像検索においても改善が見られました。コード、モデル、データはhttps://tripletclip.github.ioで公開しています。

fulfulggg commented 2 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

fulfulggg commented 1 hour ago

論文要約