Open fulfulggg opened 2 hours ago
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
CLIPの弱点: 画像とテキストの関係を学習するCLIPは、学習データに含まれる情報の種類に性能が左右されます。特に、既存のデータセットは複雑な組み合わせの表現が不足しており、CLIPの複雑な推論能力を制限しています。
TripletCLIPの提案: この論文では、TripletCLIPという新しい学習方法を提案。CLIPの弱点である複雑な推論能力を向上させるのが目的です。
TripletCLIPの仕組み:
TripletCLIPの効果: TripletCLIPを使うことで、CLIPの複雑な推論能力が向上することを実験で確認。
公開情報: コード、学習済みモデル、データは公開されています。
タイトル: TripletCLIP:合成視覚言語ネガティブサンプルを用いたCLIPの合成推論能力向上
リンク: https://arxiv.org/abs/2411.02545
概要:
対照言語画像事前学習(CLIP)モデルは、テキストと視覚モダリティ間の相互情報を最大化することで表現を学習します。そのため、CLIPのダウンストリームタスクにおける有効性は、学習データの性質に大きく依存します。しかし、既存の画像テキストデータセットは構成的な多様性に不足しており、CLIPの構成的推論能力を制限しています。本研究では、インコンテキスト学習を用いて「難しい」ネガティブキャプションを生成し、テキスト画像生成モデルで対応するネガティブ画像を合成することで、この問題を解決できることを示します。これらの難しいネガティブキャプションと画像を交互に使用してCLIPを学習する、新しい対照事前学習戦略を提案します。TripletCLIPと名付けたこの手法をCC3MやCC12Mなどの既存のデータセットに適用することで、CLIPの構成能力が向上し、SugarCrepeベンチマークにおいて同等の計算量で9%以上の絶対的な改善が見られたほか、ゼロショット画像分類と画像検索においても改善が見られました。コード、モデル、データはhttps://tripletclip.github.ioで公開しています。