hkefka385 / paper_reading

3 stars 1 forks source link

Multi-Modality Cross Attention Network for Image and Sentence Matching #59

Open hkefka385 opened 4 years ago

hkefka385 commented 4 years ago

0. 論文

Journal/Conference: CVPR 2020 Title: Multi-Modality Cross Attention Network for Image and Sentence Matching Authors: Xi Wei, Tianzhu Zhang, Yan Li, Yongdong Zhang, Feng Wu URL: https://openaccess.thecvf.com/content_CVPR_2020/html/Wei_Multi-Modality_Cross_Attention_Network_for_Image_and_Sentence_Matching_CVPR_2020_paper.html

1. どんなもの?

画像とテキストを扱うimage and sentence matchingタスクにおいて,画像やテキスト各モーダルの中での関係をself-attentionを用いて,各モーダル間をcross-attentionを用いて捉えようとする研究 そのためのモデルとして,Multi-Modality Cross Attention (MMCA) Networkを提案

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

self-attentionをcorss-attentionの組み合わせ cross-attentionの計算方法部分

4. どうやって有効だと検証した?

MS COCOとFlickr30Kの2つのデータセットで実験し、評価

5. 議論はある?

6.次に読むべき論文は?

メモ

Abst 多くの研究ではクロスモーダルマッチングを行っている. 提案:画像領域とテキストのモーダリティ内 or 間の関係を統一的な深層モデルで共同モデル化するMMCA (Multi-Modality Cross Attention)

1 Introduction Image and sentence matchingのタスク 画像検索の時,言語の意味やvisionの理解などモーダルを超えた関係やlocationの理解が必要 画像とテキストのマッチング問題には2つの分類 ・one-to-one matching (Ref, 19, 28, 50, 10):画像と文のGlobalな表現を抽出し,関連付ける 同じ埋め込み空間へのmappingなどのembedding approachが取られているが,画像と文の類似性はGlobalに取られてばかりで,類似性は複雑な集合から生じるという事実が存在するという問題

・many-to-many matching (14, 12, 21,26, 48):画像と文の中のobjectや語を比較して局所的な類似性を取得 2つの手法 inter-modality based method (14. 21. 12. 26. 13):visionの領域と豊後の関係を発見することに重点 (vision内の関係やテキスト内の関係を無視しがち?) intra-modality based method (38, 48):vision 領域や文語の中身の関係に着目 (モダリティの中身に着目) → この2つの関係を同時に検討することが重要

本研究:Multi-Modality Cross Attention Networkの提案 modality同士の関係とmodality間の関係をモデル化 bottom-up moduleを用いたself-attentionとcost-attention moduleを組合わせることでモデル化 Flickr30KとMS-COCOのデータセットを用い評価

2 Related work One-to-One matching Many-to-Many matching 画像領域とvisionのの関係を学習しようとする最初期の研究 Andrej Karpathy and Li Fei-Fei. Deep visual-semantic alignments for generating image descriptions. InCVPR, pages3128–3137, 2015. selective multimodal LSTMを提案 Yan Huang, Wei Wang, and Liang Wang. Instance-aware image and sentence matching with selective multimodal last-m. InCVPR pages 2310–2318, 2017 visionとテキストの相互的な作用を多段階で捉える Hyeonseob Nam, Jung-Woo Ha, and Jeonghee Kim. Dual attention networks for multimodal reasoning and matching.InCVPR pages 299–307, 2017 S-CAN:Cross-attentionを用いた研究 (画像内の関係やテキスト内の関係は捉えられてない) Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He. Stacked cross attention for image-text matching.InECCV, pages 201–216, 2018 SEAM:モダリティ内の関係をattentionを用いて考慮する研究 Yiling Wu, Shuhui Wang, Guoli Song, and Qingming Huang.Learning fragment self-attention embeddings for image-text matching. InProceedings of the 27th ACM InternationalConference on Multimedia pages 2088–2096. ACM, 2019

Attention-based methods 外観

スクリーンショット 2020-07-13 5 11 09

3 Multi-modality cross attention network

3.1 Overview Self-attention moduleとCross-Attention moduleで構成される vision: 学習済bottom-up attention modelを用いた特徴 Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalan-tides, Li-Jia Li, David A Shamma, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations.International Journal of Computer Vision, 123(1):32–73, 2017 text:BERTを用いて各ワードのpiece tokenを取得 Cross-attention moduleから得られた特徴を1D-CNN & Pool functionを用いてBag of visual wordsモデルを構築 4種類のembeddingsの取得:画像のみ,テキストのみ,画像 + テキスト (2種類)

3.2 Instance Candidates Extraction ・Image Instance Candidates region featuresを取得(O)しタスクに応じた特徴(R)に変換 ・Sentence Instance Candidates BERTモデルによるword token featuresを取得

3.3 Self-Attention module (Fig2 のgreen) Vision:region同士の関係 (k)を取得するためにtransformerを用いて,pooling operationでimage representationを算出 Text:uni-gram, bi-gram, tri-gramを意識して1d-CNNを用いて周辺の文脈を学習,3つの特徴を取得 (p1, p2, p3)

3.4 Cross-Attention Module (Fig3 の red) imageとtextをconcatenateしてそれぞれattentiionの計算を実行 (e.q. 8,9,10) textやimageを基礎としたattention特徴を取得 (e.q.13, 14)

3.5 Alignment Objective bi-directional triplet lossを用いて損失関数を構成

4 4,.1 Dataset and Protocols MS-COCOとFlicker30Kの利用 4.3 Results

4.4 Ablation studios and analysis モデルの潜在空間の次元やハイパーパラメータに関する設定