Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

0. 論文

Journal/Conference: CVPR 2020 Title: Multi-Task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Authors: Gen Luo, Yiyi Zhou, Xiaoshuai Sun, Liujuan Cao, Chenglin Wu, Cheng Deng, Rongrong Ji URL: https://openaccess.thecvf.com/content_CVPR_2020/html/Luo_Multi-Task_Collaborative_Network_for_Joint_Referring_Expression_Comprehension_and_Segmentation_CVPR_2020_paper.html

1. どんなもの？

RECとRESという2つの似たタスクを共同学習する手法を提案 2つのタスクを相互に恩恵を受けれるように，2つのmodule (Consistency Energy Maximization(CEM)　Adaptive Soft Non-Located Suppression(ASNLS))を導入 prediction conflitにも取り組めるモデルとなっている

2. 先行研究と比べてどこがすごい？

2つのタスクを共同に学習するために適切なモジュールを導入した点

3. 技術や手法のキモはどこ？

２つのモジュールを導入 Consistency Energy Maximization：2つのタスクのAttentionを一致させるための損失関数を導入 Adaptive Soft Non-Located Suppression：RECの予測結果 (bounding box)の出力を利用して，RESの出力の重み付けを行う後処理手法

4. どうやって有効だと検証した？

3つのベンチマーク：RefCOCO, RefCOCO+，RefCICIgを用いて評価

5. 議論はある？

2つのモジュールの効果を適切に示せている (Fig6)

6.次に読むべき論文は？

メモ

似たCVPR2020の研究として、Cops-Ref: A New Dataset and Task on Compositional Referring Expression Comprehension：新しいタスク設定Referring expresion用のデータセットとタスクを設定．タスクとは，自然言語のExpressionによりExpressionが表示する物体領域を探し出すタスク

Abst Referring expression comprehension (REC)とsegmentation (RES)は関連性の高いタスクなのでマルチタスクとして学習する 2つのタスクを調整するためにConsistency Energy Maximization (CEM) and Adaptive Soft Non-Located Suppression (ASNLS)の2つの損失関数の設計を導入

1 Introduction Referring Expression Comp[rehension (REC)：2段階のパイプライン (領域検出 + 最も一致するものを選択) ・参照先の位置を予測することに優れている RES (Referring expression segmentatioin)：1段階・ピクセルレベルあの情報を扱うためlanguage-visionのalignmentを取り出すのに役立つという2つのタスク →２つのタスクを同時に取り組む最近の研究：MattNet Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu,Mohit Bansal, and Tamara L Berg. Mattnet: Modular at-tention network for referring expression comprehension. InCVPR, 2018 → 予測競合の問題があり (fig1. b)

本研究 1段階で共同学習 (協調学習ネットワーク (MCN))を提案・一方のタスクが他方のタスクに対応することによる性能低下を避けるために，visionとlanguageのencoderのみを共有する・Consistency energy maximization (CEM)：2つの推論branch間の一貫性を最大化・Adaptive soft non-located suppression (ASNLS)：RECの予測によるRESの無関係領域の応答を抑制する

3つのベンチマーク：RefCOCO, RefCOCO+，RefCICIgを用いて評価 2つのタスクのprediction conflictを測定するためにIn-conconsistency Error(IE)を提案

貢献・2つのタスクの協調学習を促進するマルチタスクネットワークを提案・推論時間が早い

2 Related Work 2.1 Referring Expression Comprehension

2.2 Referring Expression Segmentation 2.3 Multi-task Learning 以前はピクセル谷の予測で複数タスクの結合が行われていた (Ref, 8, 5, 27,7,10, 15) 最近では，物体検出とセグメンテーションを結合した研究・MaskRCNN：Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross B Gir-shick. Mask r-cnn. InICCV, 2017 ・YTOLACT：Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee.Yolact: Real-time instance segmentation. InICCV, 2019 ・Reti-naMask：Cheng-Yang Fu, Mykhailo Shvets, and Alexander C. Berg.RetinaMask: Learning to predict masks improves state-of-the-art single-shot detection for free. InarXiv preprint, 2019. 予測矛盾の問題をどう解消するかも重要

3 Multi-task Collaborative Network Fig2: フレームワーク Visionとlanguageが異なるencoderで読み取りmultimodal fusionされ，multimodal feeaturesの特徴量を得る RECとRESの推論branchに送られ，共同学習のためのbottom up connectionが構築 2つのタスクのConsistency Energyを最大化するためにfunctionを用い，ASNLSを用いてRECの出力のバウンディングボックスるを用いてRESの結果を洗練させる

3.1 The Framework Vison：3つの異なる特徴マップを作成 Language：bi-GRUを用いて特徴を組み合わせる → 2つの特徴を組み合わせたfusion multimodal tensor Fm1を作成 (e.q.1)，それをup samplingしてテキスト情報を上に上げ画像を組み合わせたFm2, Fm3を作成 (e.q.2) 特徴mapのスケールが問題によって要求される条件が事あることから，RECではFm1，RESではFm3を用いる・GARAN attention moduleを用いて更に連結する

Objective Fucntion RES：ASPP decoderを用いてsegmentation maskを予測 Liangchieh Chen, George Papandreou, Iasonas Kokkinos,Kevin P Murphy, and Alan L Yuille. Deeplab: Semantic im-age segmentation with deep convolutional nets, atrous con-volution, and fully connected crfs. InPAMI, 2018 目的関数 (e.q.3)

REC：regression layerを用いてbounding boxなどを出力目的関数 (e,q.4)

3.2 Consistency Energy Maximization (CEM) Fig3：概要図 CEMLoss (e.q.9)

RECとRESモジュールのAttention tensorを2次テンソルに変換 (e.q.5)し，softmaxを通したものを取得 Attention tensor同士の相関を測定 (e.q.6) Co-energy：(e.q.7,8) corss-entropy的な発想で損失関数を設定：これが小さいといい (e.q.9) 相関の高いところのAttentionが高いと嬉しい？的な発想で作られた？

3.3 Adaptive Soft Non-located Suppression (ASNLS) RECの出力bounding boxに基づいて関係のある領域を求める可能性を強化 bounding boxの中を強め，それ以外を弱める処理 (e.q.10) → 更に Soft-NLSのupper, decreasing係数をRECの出力の信頼度によって変更する (e.q.11)

4 Experiments 4.1 3つのデータセット RefCOCO, RefCOCO+，RefCICIgを用いて評価

4.2 Evaluation metrics RECタスク：Intersection-over-Union (IoU) RESタスク：IoU + Acc@ Inconsistency Error：2つのタスクの正解がずれている部分を測定

4.4 Experimental Results 4.4.1 Quantitative Analysis 4.4.2 Qualitative Analysis Fig6 (a)：MCNの予測を可視化 Fig6 (b)：CEM Lossの効果 Fig6 (c)：ASNLS処理の効果

hkefka385 / paper_reading