Image Search With Text Feedback by Visiolinguistic Attention Learning

0. 論文

Journal/Conference: CVPR 2020 Title: Image Search With Text Feedback by Visiolinguistic Attention Learning Authors: Yanbei Chen, Shaogang Gong, Loris Bazzani URL: https://openaccess.thecvf.com/content_CVPR_2020/html/Chen_Image_Search_With_Text_Feedback_by_Visiolinguistic_Attention_Learning_CVPR_2020_paper.html

1. どんなもの？

画像とユーザのテキストフィードバックを用いて画像検索を行うタスクに取組むためのモデル Visiolinguistic Attention Learning (VAL)を提案

2. 先行研究と比べてどこがすごい？

通常のtext and imageのタスクと異なり，ユーザの意図に応じて近い画像を探索するタスクに適したモデルを提案した点

3. 技術や手法のキモはどこ？

・損失関数の設定：triplet ranking lossを用いることで参照先の画像とテキスト表現の潜在空間が近づくように，また出力と正解の画像が近づくように学習・元の画像の情報を保存するためのAttention (Joint-Attentional Preservation)と領域間の関係を学習する (Self-Attention)を取り入れることで問題設定に順じたモデルを提案

4. どうやって有効だと検証した？

3つのデータセット (Fashion200k, shoes, FashionIQ)を用いてモデルの有効性について検証ユーザの応答によって適切な画像が提示されている

5. 議論はある？

6.次に読むべき論文は？

メモ

画像とテキストを相互的に理解するために言語的注意学習 (Visiolinguistic Attention Learning ) CNNに挿入できる複合変換器を提案︰multi-granularなテキスト + 視覚をカプセル化

1 introduction 画像検索：ユーザの意図に合わせて検索されたアイテムを絞り込めないという問題画像検索にテキストのフィードバックを柔軟に行いたい

本研究ユーザが参照画像を選択し，テキストを追加して検索結果を修正するといった対話を取り込んだ画像検索自然言語のフィードバックを扱うことでvisionとtextの両方を互いに理解する必要 visonとtextを同時に捉え，要求にあった画像を再提示するといった点が，様々なタスクの中でも画像テキストマッチングやキャプション生成と大きく異なる点

challengeの部分・textが指定に応じて変換 (他の条件は残しつつ) (Fig1.a) ・visionとtextを共同で捉えることができる表現を学習すること

→ Visiolinguistic Attention Learning (VAL)の提案 CNNのmulti-levelで接続されたtransformerで構成される Attentionによる変換と保存したい情報を同時に学習することでテキストによる内容の変換を目的 visionとtext情報をalignmentするための階層モデルを構築

貢献・VALフレームワークを用いて，テキストフィードバックを用いた画像検索に取り組む：階層的なマッチング関数を用いて，visualとlinguisticの内容をカプセル化する・3つのデータセット (Fashion200k, shoes, FashionIQ)を用いて評価　 2 Related work ・Interactive image search

・Attention mechanism ・Composition learning

3 Visiolinguistic Attention learning 画像とテキストを入力として，ターゲトットの画像表現に沿った表現を獲得すること？ 3つのコンポーネント：image encoder, text encoder , multiple composite transformer（言語的な意味を様々な深さの画像マップに吸収するための変換器）

3.1 Representing Images and Texts ・Image Representations 複数のfeature map (feature pyramid)を抽出 reference imageとtarget iamgeをそれぞれCNNを用いてmulti-level feature mapsを取得 (Fr_r, F_t)

・Text Representations LSTMを用いてtext encoderで変換されたrepresentation (t)を取得

3.2 Composite Transformer textを条件としたvision feawtureのtransformとpreservationを提案 CNNのmulti-levelに挿入されたtransformerを提案 visionとtextの特徴をカプセル化することを目的

・Visiolinguistic Representation x_rとtextを組み合わせた特徴量 x_vlをMLPで生成 (e.q.1)：画像とテキストの間の関係pairwise visiolungustic relationshipsを構成

・Self-Attentional Transformer 得られたvisiolinguistic feature x_vlをtransformer：領域間の関係を学習　(o_sa) (e.q.2)

・Joint-Attentional Preservation Reference imageの特徴をどのように保存して入力画像に類似させるか？ visiolinguistic feature x_vlをlightweight joint-attentionを用いて学習 (squeeze-and excite manner) Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation net-works. InIEEE Conference on Computer Vision and PatternRecognition, 2018.

reference image x_r を保持するための程度を調整 (e.q.3) (o_ja) → joint attentionalの特徴 (o_ja)とself-attentional (o_sa)の特徴を重み付き結合 (e.q.4) 3つのレベルで出力されたoがF_oとなり最終的案出力となる

3.3 Hierarchical Matching モデルの出力であるcomposite output F_oとtarget image representation F_tをalignさせることが目的 (hierarchical matching objective) desired visualと semantic feaatureを一致させるための2つの損失関数 (Fig3)

・Primary visual-visual matching target featureとcomposite featureが高くマッチングできるように類似度を用いてtriplet ranking lossを用いる semihard miningを用いてnegativeなpairを選択 (semihard mining：Florian Schroff, Dmitry Kalenichenko, and James Philbin.Facenet: A unified embedding for face recognition and clus-tering. InIEEE Conference on Computer Vision and PatternRecognition, 2015.) 多層ごとの出力O_tが実際のサンプル近くなるようにそれぞれ学習する (e.q.5)

・Auxiliary visual semantic matching visual featureからsemantic spaceへと投影した特徴とテキスト特徴をalignするためにtriplet loss rankingをもちいる (e.q.6)

4 Experioments 4.5 Ablation study ・Effect of self-attention and joint attention (Table4) SAとJAが相補的な役割は果たしていない：どちらも異なる役割を果たしている (sematnicの理解と，保存の役割)

・attention visualization 階層構造のattentiionを解釈するための可視化　(Fig7) 階層の深さに応じて保存している場所が異なる

・Effect of composition at multi-level (fig8) 本モデルの多層構造がどのような役割を果たすか (fig.8)

5 Conclusion

hkefka385 / paper_reading