2 Related work
One-to-One matching
Many-to-Many matching
画像領域とvisionのの関係を学習しようとする最初期の研究
Andrej Karpathy and Li Fei-Fei. Deep visual-semantic alignments for generating image descriptions. InCVPR, pages3128–3137, 2015.
selective multimodal LSTMを提案
Yan Huang, Wei Wang, and Liang Wang. Instance-aware image and sentence matching with selective multimodal last-m. InCVPR pages 2310–2318, 2017
visionとテキストの相互的な作用を多段階で捉える
Hyeonseob Nam, Jung-Woo Ha, and Jeonghee Kim. Dual attention networks for multimodal reasoning and matching.InCVPR pages 299–307, 2017
S-CAN:Cross-attentionを用いた研究 (画像内の関係やテキスト内の関係は捉えられてない)
Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He. Stacked cross attention for image-text matching.InECCV, pages 201–216, 2018
SEAM:モダリティ内の関係をattentionを用いて考慮する研究
Yiling Wu, Shuhui Wang, Guoli Song, and Qingming Huang.Learning fragment self-attention embeddings for image-text matching. InProceedings of the 27th ACM InternationalConference on Multimedia pages 2088–2096. ACM, 2019
Attention-based methods
外観
3 Multi-modality cross attention network
3.1 Overview
Self-attention moduleとCross-Attention moduleで構成される
vision: 学習済bottom-up attention modelを用いた特徴
Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalan-tides, Li-Jia Li, David A Shamma, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations.International Journal of Computer Vision, 123(1):32–73, 2017
text:BERTを用いて各ワードのpiece tokenを取得
Cross-attention moduleから得られた特徴を1D-CNN & Pool functionを用いてBag of visual wordsモデルを構築
4種類のembeddingsの取得:画像のみ,テキストのみ,画像 + テキスト (2種類)
0. 論文
Journal/Conference: CVPR 2020 Title: Multi-Modality Cross Attention Network for Image and Sentence Matching Authors: Xi Wei, Tianzhu Zhang, Yan Li, Yongdong Zhang, Feng Wu URL: https://openaccess.thecvf.com/content_CVPR_2020/html/Wei_Multi-Modality_Cross_Attention_Network_for_Image_and_Sentence_Matching_CVPR_2020_paper.html
1. どんなもの?
画像とテキストを扱うimage and sentence matchingタスクにおいて,画像やテキスト各モーダルの中での関係をself-attentionを用いて,各モーダル間をcross-attentionを用いて捉えようとする研究 そのためのモデルとして,Multi-Modality Cross Attention (MMCA) Networkを提案
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
self-attentionをcorss-attentionの組み合わせ cross-attentionの計算方法部分
4. どうやって有効だと検証した?
MS COCOとFlickr30Kの2つのデータセットで実験し、評価
5. 議論はある?
6.次に読むべき論文は?
メモ
Abst 多くの研究ではクロスモーダルマッチングを行っている. 提案:画像領域とテキストのモーダリティ内 or 間の関係を統一的な深層モデルで共同モデル化するMMCA (Multi-Modality Cross Attention)
1 Introduction Image and sentence matchingのタスク 画像検索の時,言語の意味やvisionの理解などモーダルを超えた関係やlocationの理解が必要 画像とテキストのマッチング問題には2つの分類 ・one-to-one matching (Ref, 19, 28, 50, 10):画像と文のGlobalな表現を抽出し,関連付ける 同じ埋め込み空間へのmappingなどのembedding approachが取られているが,画像と文の類似性はGlobalに取られてばかりで,類似性は複雑な集合から生じるという事実が存在するという問題
・many-to-many matching (14, 12, 21,26, 48):画像と文の中のobjectや語を比較して局所的な類似性を取得 2つの手法 inter-modality based method (14. 21. 12. 26. 13):visionの領域と豊後の関係を発見することに重点 (vision内の関係やテキスト内の関係を無視しがち?) intra-modality based method (38, 48):vision 領域や文語の中身の関係に着目 (モダリティの中身に着目) → この2つの関係を同時に検討することが重要
本研究:Multi-Modality Cross Attention Networkの提案 modality同士の関係とmodality間の関係をモデル化 bottom-up moduleを用いたself-attentionとcost-attention moduleを組合わせることでモデル化 Flickr30KとMS-COCOのデータセットを用い評価
2 Related work One-to-One matching Many-to-Many matching 画像領域とvisionのの関係を学習しようとする最初期の研究 Andrej Karpathy and Li Fei-Fei. Deep visual-semantic alignments for generating image descriptions. InCVPR, pages3128–3137, 2015. selective multimodal LSTMを提案 Yan Huang, Wei Wang, and Liang Wang. Instance-aware image and sentence matching with selective multimodal last-m. InCVPR pages 2310–2318, 2017 visionとテキストの相互的な作用を多段階で捉える Hyeonseob Nam, Jung-Woo Ha, and Jeonghee Kim. Dual attention networks for multimodal reasoning and matching.InCVPR pages 299–307, 2017 S-CAN:Cross-attentionを用いた研究 (画像内の関係やテキスト内の関係は捉えられてない) Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He. Stacked cross attention for image-text matching.InECCV, pages 201–216, 2018 SEAM:モダリティ内の関係をattentionを用いて考慮する研究 Yiling Wu, Shuhui Wang, Guoli Song, and Qingming Huang.Learning fragment self-attention embeddings for image-text matching. InProceedings of the 27th ACM InternationalConference on Multimedia pages 2088–2096. ACM, 2019
Attention-based methods 外観
3 Multi-modality cross attention network
3.1 Overview Self-attention moduleとCross-Attention moduleで構成される vision: 学習済bottom-up attention modelを用いた特徴 Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalan-tides, Li-Jia Li, David A Shamma, et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations.International Journal of Computer Vision, 123(1):32–73, 2017 text:BERTを用いて各ワードのpiece tokenを取得 Cross-attention moduleから得られた特徴を1D-CNN & Pool functionを用いてBag of visual wordsモデルを構築 4種類のembeddingsの取得:画像のみ,テキストのみ,画像 + テキスト (2種類)
3.2 Instance Candidates Extraction ・Image Instance Candidates region featuresを取得(O)しタスクに応じた特徴(R)に変換 ・Sentence Instance Candidates BERTモデルによるword token featuresを取得
3.3 Self-Attention module (Fig2 のgreen) Vision:region同士の関係 (k)を取得するためにtransformerを用いて,pooling operationでimage representationを算出 Text:uni-gram, bi-gram, tri-gramを意識して1d-CNNを用いて周辺の文脈を学習,3つの特徴を取得 (p1, p2, p3)
3.4 Cross-Attention Module (Fig3 の red) imageとtextをconcatenateしてそれぞれattentiionの計算を実行 (e.q. 8,9,10) textやimageを基礎としたattention特徴を取得 (e.q.13, 14)
3.5 Alignment Objective bi-directional triplet lossを用いて損失関数を構成
4 4,.1 Dataset and Protocols MS-COCOとFlicker30Kの利用 4.3 Results
4.4 Ablation studios and analysis モデルの潜在空間の次元やハイパーパラメータに関する設定