TripletCLIP：合成視覚言語ネガティブサンプルを用いたCLIPの合成推論能力向上

fulfulggg commented 2 hours ago

タイトル: TripletCLIP：合成視覚言語ネガティブサンプルを用いたCLIPの合成推論能力向上

リンク: https://arxiv.org/abs/2411.02545

概要:

対照言語画像事前学習（CLIP）モデルは、テキストと視覚モダリティ間の相互情報を最大化することで表現を学習します。そのため、CLIPのダウンストリームタスクにおける有効性は、学習データの性質に大きく依存します。しかし、既存の画像テキストデータセットは構成的な多様性に不足しており、CLIPの構成的推論能力を制限しています。本研究では、インコンテキスト学習を用いて「難しい」ネガティブキャプションを生成し、テキスト画像生成モデルで対応するネガティブ画像を合成することで、この問題を解決できることを示します。これらの難しいネガティブキャプションと画像を交互に使用してCLIPを学習する、新しい対照事前学習戦略を提案します。TripletCLIPと名付けたこの手法をCC3MやCC12Mなどの既存のデータセットに適用することで、CLIPの構成能力が向上し、SugarCrepeベンチマークにおいて同等の計算量で9%以上の絶対的な改善が見られたほか、ゼロショット画像分類と画像検索においても改善が見られました。コード、モデル、データはhttps://tripletclip.github.ioで公開しています。

fulfulggg commented 2 hours ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

contrastive-learning
vision-language-model
zero-shot-learning

fulfulggg commented 1 hour ago

論文要約

CLIPの弱点: 画像とテキストの関係を学習するCLIPは、学習データに含まれる情報の種類に性能が左右されます。特に、既存のデータセットは複雑な組み合わせの表現が不足しており、CLIPの複雑な推論能力を制限しています。
TripletCLIPの提案: この論文では、TripletCLIPという新しい学習方法を提案。CLIPの弱点である複雑な推論能力を向上させるのが目的です。
TripletCLIPの仕組み:
- 難しいネガティブサンプルの生成: まず、AIを使って、画像の内容と合致しない「難しい」否定的なキャプション（説明文）を生成します。
- ネガティブ画像の合成: 生成した否定的なキャプションに基づいて、画像生成AIを使って対応する「偽の」画像を合成します。
- CLIPの学習: 元の画像と正しいキャプション、そして生成した「難しい」否定的なキャプションと偽の画像をセットにしてCLIPを学習させます。これにより、CLIPはより正確に画像とテキストの関係を理解できるようになります。
TripletCLIPの効果: TripletCLIPを使うことで、CLIPの複雑な推論能力が向上することを実験で確認。
- 具体的な例として、SugarCrepeベンチマークで9%以上の性能向上。
- ゼロショット画像分類と画像検索タスクでも性能が向上。
公開情報: コード、学習済みモデル、データは公開されています。

fulfulggg / Information-gathering