Multi-Modality Cross Attention Network for Image and Sentence Matching

0. 論文

Journal/Conference: CVPR 2020 Title: Multi-Modality Cross Attention Network for Image and Sentence Matching Authors: Xi Wei, Tianzhu Zhang, Yan Li, Yongdong Zhang, Feng Wu URL: https://openaccess.thecvf.com/content_CVPR_2020/html/Wei_Multi-Modality_Cross_Attention_Network_for_Image_and_Sentence_Matching_CVPR_2020_paper.html

1. どんなもの？

画像とテキストを扱うimage and sentence matchingタスクにおいて，画像やテキスト各モーダルの中での関係をself-attentionを用いて，各モーダル間をcross-attentionを用いて捉えようとする研究そのためのモデルとして，Multi-Modality Cross Attention (MMCA) Networkを提案

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

self-attentionをcorss-attentionの組み合わせ cross-attentionの計算方法部分

4. どうやって有効だと検証した？

MS COCOとFlickr30Kの2つのデータセットで実験し、評価

5. 議論はある？

6.次に読むべき論文は？

メモ

Abst 多くの研究ではクロスモーダルマッチングを行っている．提案：画像領域とテキストのモーダリティ内 or 間の関係を統一的な深層モデルで共同モデル化するMMCA (Multi-Modality Cross Attention)

1 Introduction Image and sentence matchingのタスク画像検索の時，言語の意味やvisionの理解などモーダルを超えた関係やlocationの理解が必要画像とテキストのマッチング問題には2つの分類・one-to-one matching (Ref, 19, 28, 50, 10)：画像と文のGlobalな表現を抽出し，関連付ける同じ埋め込み空間へのmappingなどのembedding approachが取られているが，画像と文の類似性はGlobalに取られてばかりで，類似性は複雑な集合から生じるという事実が存在するという問題

・many-to-many matching (14, 12, 21,26, 48)：画像と文の中のobjectや語を比較して局所的な類似性を取得２つの手法 inter-modality based method (14. 21. 12. 26. 13)：visionの領域と豊後の関係を発見することに重点 (vision内の関係やテキスト内の関係を無視しがち？) intra-modality based method (38, 48)：vision 領域や文語の中身の関係に着目 (モダリティの中身に着目) → この2つの関係を同時に検討することが重要

本研究：Multi-Modality Cross Attention Networkの提案 modality同士の関係とmodality間の関係をモデル化 bottom-up moduleを用いたself-attentionとcost-attention moduleを組合わせることでモデル化 Flickr30KとMS-COCOのデータセットを用い評価

2 Related work One-to-One matching Many-to-Many matching 画像領域とvisionのの関係を学習しようとする最初期の研究 Andrej Karpathy and Li Fei-Fei. Deep visual-semantic alignments for generating image descriptions. InCVPR, pages3128–3137, 2015. selective multimodal LSTMを提案 Yan Huang, Wei Wang, and Liang Wang. Instance-aware image and sentence matching with selective multimodal last-m. InCVPR pages 2310–2318, 2017 visionとテキストの相互的な作用を多段階で捉える Hyeonseob Nam, Jung-Woo Ha, and Jeonghee Kim. Dual attention networks for multimodal reasoning and matching.InCVPR pages 299–307, 2017 S-CAN：Cross-attentionを用いた研究 (画像内の関係やテキスト内の関係は捉えられてない) Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He. Stacked cross attention for image-text matching.InECCV, pages 201–216, 2018 SEAM：モダリティ内の関係をattentionを用いて考慮する研究 Yiling Wu, Shuhui Wang, Guoli Song, and Qingming Huang.Learning fragment self-attention embeddings for image-text matching. InProceedings of the 27th ACM InternationalConference on Multimedia pages 2088–2096. ACM, 2019

Attention-based methods 外観

3 Multi-modality cross attention network

3.1 Overview Self-attention moduleとCross-Attention moduleで構成される vision: 学習済bottom-up attention modelを用いた特徴 Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalan-tides, Li-Jia Li, David A Shamma, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations.International Journal of Computer Vision, 123(1):32–73, 2017 text：BERTを用いて各ワードのpiece tokenを取得 Cross-attention moduleから得られた特徴を1D-CNN & Pool functionを用いてBag of visual wordsモデルを構築 4種類のembeddingsの取得：画像のみ，テキストのみ，画像 + テキスト (2種類)

3.2 Instance Candidates Extraction ・Image Instance Candidates region featuresを取得(O)しタスクに応じた特徴(R)に変換・Sentence Instance Candidates BERTモデルによるword token featuresを取得

3.3 Self-Attention module (Fig2 のgreen) Vision：region同士の関係 (k)を取得するためにtransformerを用いて，pooling operationでimage representationを算出 Text：uni-gram, bi-gram, tri-gramを意識して1d-CNNを用いて周辺の文脈を学習，3つの特徴を取得 (p1, p2, p3)

3.4 Cross-Attention Module (Fig3 の red) imageとtextをconcatenateしてそれぞれattentiionの計算を実行 (e.q. 8,9,10) textやimageを基礎としたattention特徴を取得 (e.q.13, 14)

3.5 Alignment Objective bi-directional triplet lossを用いて損失関数を構成

4 4,.1 Dataset and Protocols MS-COCOとFlicker30Kの利用 4.3 Results

4.4 Ablation studios and analysis モデルの潜在空間の次元やハイパーパラメータに関する設定

hkefka385 / paper_reading