hkefka385 / paper_reading

3 stars 1 forks source link

Referring Image Segmentation via Cross-Modal Progressive Comprehension #56

Open hkefka385 opened 4 years ago

hkefka385 commented 4 years ago

0. 論文

Journal/Conference: CVPR 2020 Title: Referring Image Segmentation via Cross-Modal Progressive Comprehension Authors: Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong Han, Luoqi Liu, Bo Li URL: https://openaccess.thecvf.com/content_CVPR_2020/html/Huang_Referring_Image_Segmentation_via_Cross-Modal_Progressive_Comprehension_CVPR_2020_paper.html

1. どんなもの?

Referring image segmentationのタスクに対して,画像とテキストの情報を考慮して情報を抽出するために2つのモジュールを提案 4つのベンチマークで比較手法より高い精度を達成

2. 先行研究と比べてどこがすごい?

テキスト内のEntityを属性語や関係語,実体語に分類し,それぞれの属性を考慮したモデルを構築した点 まず,実体語や属性語に着目したあとに,動詞や前置詞などの関係語に着目してモデルを学習するという,人間と似たような学習方法をとっている点

スクリーンショット 2020-07-13 4 57 32

3. 技術や手法のキモはどこ?

・CMPC:テキスト内のentityと画像のオブジェクトをそれぞれ,Entity PerceptionとRelation-aware reasoningという順々にfusionさせ学習していくモジュール ・TGFE:異なるチャンネル間の情報を伝達するためのモジュール という新たなモジュールを提案

スクリーンショット 2020-07-13 4 57 43

4. どうやって有効だと検証した?

5. 議論はある?

Relation wordを明示的に考慮したモデルを構築したことによって,Fig5などのように既存のEntityに対して新たなRelationを提示しても柔軟に対応できるモデルとなっている

6.次に読むべき論文は?

Affinity matrixについて︰https://qiita.com/pacifinapacific/items/2e7a03aa84d8a8bfa60d 最近に比較手法:Linwei Ye, Mrigank Rochan, Zhi Liu, and Yang Wang. Cross-modal self-attention network for referring image seg- mentation. In CVPR, 2019

メモ

Abst 参照画像のセグメンテーションと自然言語表現の一致させ領域検出を行うタスク 単純に2つのモダリティを相互的に作用させるのではなく,特徴を並列させ情報を交換していく必要 2つのモジュールを提案 ・Cross-Model Progressive Comprehension (CMPC): entity and attribute wordsを捉え,relational wordsを更に捉えることで適切なEntityを探索 ・Text-Guided Feature Exchange (TGEF):異なるレベルから推論された特徴をテキスト情報のガイダンスと統合して,複数のレベルの特徴量を相互に交換しあう

1 Introduction Refering image segmentation (RIS):entities, attributes, relationshipsなどの様々な内容を属す → visionとlanguageを共通の埋め込みや文脈のモデル化 テキスト内のwordと画像のentityを一致させる (b) → Relationを捉え (動詞など) (c) → 予測 (d) Cross-Modal Progressive Comprehension (CMPC)モジュールの提案 ・テキスト内の実態語や属性語,画像内の視覚的特徴を同時に捉えるマルチモーダルfeatures ・Entityの空間グラフを構築 → 動詞などの関係語をエッジとして構築

提案モデル Relational words:空間内のノードを接続するための適切なedgeの構築 Saptial vertex → edge ← spatial vertexの関係を学習していく 関係のあるentityを強く考慮し,無関係 (edge)でつながらないentityを捉えるような学習を行っていく TGFE (text-guided feature exchange):マルチモーダル特徴の情報を活用するためにのモジュール 有用な特徴チャネルを言語的特徴量に基づいて選択して情報伝達を行う → ConvLSTMを用いて高いそう特徴を融合させ,低レベルの視覚情報と高レベルの意味情報を包括的に統合し予測 ConvLSTM:SHI Xingjian, Zhourong Chen, Hao Wang, Dit-Yan Ye-ung, Wai-Kin Wong, and Wang-chun Woo. Convolutionallstm network: A machine learning approach for precipitationnowcasting. InNeurIPS, 2015 ・Cross-Modal Progressive Comprehension(CMPC)︰all the entitiesと関係を認識し,参照元の特徴表現を生成 ・Text-Guided Feature Exchange (TGFE):言語的特徴量を基に,他レベル特徴量の情報伝達を行う ・Segmentation benchmarkで良い結果

2 Related Work 2.1 Semantic Segmentation FCNを用いた研究が多かった (ref. 4-6) PSPNet:pyramid pooling operationの利用 Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, XiaogangWang, and Jiaya Jia. Pyramid scene parsing network. InCVPR Attention-basedのsegmentaion model DANet (dual-attention network) CFNet Hang Zhang, Han Zhang, Chenguang Wang, and JunyuanXie. Co-occurrent features in semantic segmentation. InCVPR, 2019

2.2 Refering expression comprehension 文章で記述していることを画像から探索 → bounding boxレベルの獲得 ibei Yang, Guanbin Li, and Yizhou Yu. Cross-modal re-lationship inference for grounding referring expressions. InCVPR, 2019 → segmentation maskを用いての探索 Ronghang Hu, Marcus Rohrbach, and Trevor Darrell. Seg-mentation from natural language expressions. セグメンテーションマスクの詳細を再帰的に取り込むため,様々なレベルの特徴を取り込み結合︰Suiyu Li, Kaican Li, Yi-Chun Kuo, Michelle Shu, XiaojuanQi, Xiaoyong Shen, and Jiaya Jia. Referring image segmen-tation via recurrent refinement networks. InCVPR, 2018 Word attentionを用いての視覚的特徴をより捉えようとする試み:Hengcan Shi, Hongliang Li, Fanman Meng, and Qingbo Wu.Key-word-aware network for referring expression image seg-mentation. InECCV, 2018 クロスモーダルSelf-attentionを利用して長距離の依存性を捉える:Linwei Ye, Mrigank Rochan, Zhi Liu, and Yang Wang.Cross-modal self-attention network for referring image seg-mentation. InCVPR, 2019

2.3 Graph-based reasoning 空間と時空空間をグラフに置き換えGCNを用いて文脈推論 Xiaolong Wang and Abhinav Gupta. Videos as space-timeregion graphs. InECCV, 2018 グラフを用いて全体的な文脈を推論し,視覚特と湯をinteractive spaceに投影するモジュールの提案 Yunpeng Chen, Marcus Rohrbach, Zhicheng Yan, YanShuicheng, Jiashi Feng, and Yannis Kalantidis. Graph-basedglobal reasoning networks. InCVPR, 2019

3 Method Fig2:モデルの全体像 CNNで画像の特徴を取得 Text encoderを用いて表現の言語的特徴を抽出 → CMPCモジュールの提案:テキストのentityとrelationを考慮して画像の情報を複数のレベルで適用 → TGFEモジュール︰テキストモダリティの基で情報を伝達 → Conv-LSTMを用いて予測

3.1 Visual and Linguistic Feature Extraction 1 ×1CNNを用いて抽出:8チャネル TextはLSTM

3.2 Cross-modal progressive comprehension CMPCモジュールについて:Fig3 ・bilinear fusion を用いてマルチモーダル特徴を取得 Hedi Ben-Younes, R ́emi Cadene, Matthieu Cord, and Nico-las Thome. Mutan: Multimodal tucker fusion for visualquestion answering. InICCV, 2017 ・関係性を考慮するための推論 Biliniear fusionを用いてテキストと画像特徴をprojection

Entity Perception Sibei Yang, Guanbin Li, and Yizhou Yu. Cross-modal re-lationship inference for grounding referring expressions. InCVPR, 2019と同様に語を分類し,それぞれに分類される確率をベクトル化 → global language context of entitiesを算出 (e.q.1-2) bilinear fusion strategyを用いて,global language contextと画像の特徴を組み合わせ (e.q.3-4)

Relation-aware reasoning Entity perceptionで得られたMを,グラフのvertexの特徴量に変換 Mとrelational wordsの特徴量を組み合わせて,edgeの特徴量に変換 (e.q.5-9) → multimodal graphの構築 →GNNの適用 (e.q.10) Affinity matrixについて︰https://qiita.com/pacifinapacific/items/2e7a03aa84d8a8bfa60d → テキスト情報を加える (e.q.11)

3.3 Text guided feature exchange 視覚と言語の特徴間での情報伝達 Word featuresとCMPCモジュールの出力Y3, Y4, Y5を入力

4 Experiments 4つのベンチマーク︰UNC [46], UNC+ [46], G-Ref [33] and ReferIt

Fig5: マルチモーダル特徴量と表現の単語との間のaffinity map 表現が実体語のみから文全体へと情報量が増えるにつれて、参照元に対してより集中的な応答を生成 ドーナツの例などがわかりやすい (新たな表現にも適用可能)

5 Concusions 関係語を用いたグラフベースの推論 (CMPC) テキスト情報を利用した複数レベルの特徴の統合 (TFGE)