Open fulfulggg opened 1 week ago
この論文は、ゼロショット複合画像検索 (ZS-CIR) をより正確に行うための新しい手法を提案しています。ZS-CIRとは、事前に学習データがない場合でも、複数の条件で画像検索を行う技術です。
従来のZS-CIRでは、画像を単語に変換する際に、検索に不要な情報が多く含まれていました。この論文では、Denoise-I2W という新しい手法を用いることで、ノイズとなる情報を減らし、より正確な検索を実現しています。
Denoise-I2Wの特徴
Denoise-I2Wの効果
Denoise-I2Wは、ZS-CIRの精度を大幅に向上させる、画期的な技術です。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: Denoise-I2W:正確なゼロショット複合画像検索のための、画像からノイズ除去単語へのマッピング
リンク: https://arxiv.org/abs/2410.17393
概要:
arXiv:2410.17393v1 アナウンスの種類: 新規 概要: ゼロショット構成画像検索 (ZS-CIR) は、ドメイン、シーン、オブジェクト、属性に関連する幅広い視覚コンテンツ操作意図を持つ多様なタスクをサポートします。ZS-CIR の重要な課題は、一般化された CIR の操作意図関連画像情報を捉えた疑似単語トークンに画像表現を正確にマッピングすることです。しかし、検索段階と事前トレーニング段階の間にある既存の方法では、疑似単語トークンに大きな冗長性が生じます。本稿では、ZS-CIR の精度を高めるために、意図とは無関係な視覚情報を含まない、ノイズ除去された疑似単語トークンに画像をマッピングするための、Denoise-I2W と呼ばれる新しいノイズ除去画像-単語マッピング手法を提案します。具体的には、疑似トリプレット構築モジュールが、最初にノイズ除去マッピングネットワークを事前トレーニングするために、疑似トリプレット(つまり、疑似参照画像、疑似操作テキスト、ターゲット画像)を自動的に構築します。次に、疑似構成マッピングモジュールは、疑似参照画像を疑似単語トークンにマッピングし、操作意図を持つ疑似操作テキストと組み合わせます。この組み合わせはターゲット画像と一致し、マッピングのための意図とは無関係な視覚情報のノイズ除去を促進します。提案手法である Denoise-I2W は、モデルに依存せず、アノテーションを必要としない手法です。4 つのベンチマークデータセットにおける 3 つの最先端の ZS-CIR モデルにおいて、強力な汎化能力を示しています。Denoise-I2W を既存の最良モデルに統合することで、推論コストを増やすことなく、最良の方法よりも 1.45% から 4.17% の範囲で、一貫して大幅なパフォーマンスの向上を実現し、ZS-CIR における新たな最先端の結果を達成しました。コードは \url{https://github.com/Pter61/denoise-i2w-tmm} で公開されています。