Denoise-I2W：正確なゼロショット複合画像検索のための、画像からノイズ除去単語へのマッピング

fulfulggg commented 1 week ago

タイトル: Denoise-I2W：正確なゼロショット複合画像検索のための、画像からノイズ除去単語へのマッピング

リンク: https://arxiv.org/abs/2410.17393

概要:

arXiv:2410.17393v1 アナウンスの種類: 新規概要: ゼロショット構成画像検索 (ZS-CIR) は、ドメイン、シーン、オブジェクト、属性に関連する幅広い視覚コンテンツ操作意図を持つ多様なタスクをサポートします。ZS-CIR の重要な課題は、一般化された CIR の操作意図関連画像情報を捉えた疑似単語トークンに画像表現を正確にマッピングすることです。しかし、検索段階と事前トレーニング段階の間にある既存の方法では、疑似単語トークンに大きな冗長性が生じます。本稿では、ZS-CIR の精度を高めるために、意図とは無関係な視覚情報を含まない、ノイズ除去された疑似単語トークンに画像をマッピングするための、Denoise-I2W と呼ばれる新しいノイズ除去画像-単語マッピング手法を提案します。具体的には、疑似トリプレット構築モジュールが、最初にノイズ除去マッピングネットワークを事前トレーニングするために、疑似トリプレット（つまり、疑似参照画像、疑似操作テキスト、ターゲット画像）を自動的に構築します。次に、疑似構成マッピングモジュールは、疑似参照画像を疑似単語トークンにマッピングし、操作意図を持つ疑似操作テキストと組み合わせます。この組み合わせはターゲット画像と一致し、マッピングのための意図とは無関係な視覚情報のノイズ除去を促進します。提案手法である Denoise-I2W は、モデルに依存せず、アノテーションを必要としない手法です。4 つのベンチマークデータセットにおける 3 つの最先端の ZS-CIR モデルにおいて、強力な汎化能力を示しています。Denoise-I2W を既存の最良モデルに統合することで、推論コストを増やすことなく、最良の方法よりも 1.45% から 4.17% の範囲で、一貫して大幅なパフォーマンスの向上を実現し、ZS-CIR における新たな最先端の結果を達成しました。コードは \url{https://github.com/Pter61/denoise-i2w-tmm} で公開されています。

fulfulggg commented 1 week ago

論文要約