More Grounded Image Captioning by Distilling Image-Text Matching Model

0. 論文

Journal/Conference: CVPR 2020 Title: More Grounded Image Captioning by Distilling Image-Text Matching Model Authors: Yuanen Zhou, Meng Wang, Daqing Liu, Zhenzhen Hu, Hanwang Zhang URL: https://arxiv.org/abs/2004.00390

1. どんなもの？

画像Captioning生成モデルではAttentionを用いて画像とテキストの関係を学習しようとするものが多いが，キャプショニングの問題の設定上Attentionの学習がうまくいかないことがある画像CaptioningのAttentionの学習過程をSupervisionするためのにImage-to-text matchingのモデルを弱教師として用いることで適切なAttentionを捉えようとする研究

2. 先行研究と比べてどこがすごい？

Captioning modelのAttentionの学習のためにImage-text matching modelのAttentionを用いてAttentionの重みを調整しようとする試み

3. 技術や手法のキモはどこ？

損失関数の設定やImage-text captioningを強化学習的に用いるための報酬関数の設定がキモ 2つのモデルを別々に設定し，それに適した損失関数 (テキスト生成の損失関数と2つのモデルによるAttentionの重みのそれぞれの重なり度を組み合わせたもの)を設定し，強化学習のRewardもImage-text matching scoreなどを取り入れたものとなっているモデルの全体像

4. どうやって有効だと検証した？

MS-COCOデータセットを用いた検証により Attentionを調整する機構が上手く反映されている例

5. 議論はある？

本研究で提案した弱教師モデルを用いたAttentionのSupervisionはGrounding Taskの性能は向上させるが，キャプショニングの性能は低下させるという結果が得られた CaptionigとGroundingはトレードオフの関係があり

6.次に読むべき論文は？

メモ

groundingって画像とテキストのマッチング的な意味？

Abst Visual Attentionを用いてキャプション生成のタスクの説明性を向上させる．またAttentionを用いて，画像とテキストの対応付けを行う (grounded image captioning) Part-of-Speech (POS) enhanced image-text matching model(SCAN)の提案 (SCAN︰Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xi-aodong He. Stacked cross attention for image-text matching.InECCV, 2018) → 正則化として機能 Self-Critical Sequence Trainingの探求 Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, JerretRoss, and Vaibhava Goel. Self-critical sequence training for image captioning. In CVPR, July 2017

1 Introduction Attentionを用いたcaptioning手法 Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, AaronCourville, Ruslan Salakhudinov, Rich Zemel, and YoshuaBengio. Show, attend and tell: Neural image caption gen-eration with visual attention. InICML, 2015.

Attentionが不十分だと物体の幻覚や性別の識別などを引き起こし説明性が欠如する現象 ★Anna Rohrbach, Lisa Anne Hendricks, Kaylee Burns, TrevorDarrell, and Kate Saenko. Object hallucination in image cap-tioning. InEMNLP, 2018 Lisa Anne Hendricks, Kaylee Burns, Kate Saenko, TrevorDarrell, and Anna Rohrbach. Women also snowboard: Over-coming bias in captioning models. InECCV, 2018.

対策・Attentionの学習過程を監視 Chenxi Liu, Junhua Mao, Fei Sha, and Alan Yuille. Attentioncorrectness in neural image captioning. InAAAI, 2017 Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh.Neural baby talk. InCVPR, 2018 Luowei Zhou, Yannis Kalantidis, Xinlei Chen, Jason JCorso, and Marcus Rohrbach. Grounded video description.InCVPR, 2019 →細かい粒度の領域単語アライメントアノテーション (region word alignment)が必要 →本研究ではそのアノテーションを行わずにAttentionの監視で学習する手法を提案

提案手法画像とテキストのマッチングモデルを弱教師として用いることでが画像キャプショニングのAttentionを正則化する知識蒸留法 (l knowledge distillation)を提案 Knowledge distillationの例 Yongcheng Liu, Lu Sheng, Jing Shao, Junjie Yan, ShimingXiang, and Chunhong Pan. Multi-label image classification via knowledge distillation from weakly-supervised detection. InACM MM, 2018 Mingkuan Yuan and Yuxin Peng. Ckd: Cross-task knowledge distillation for text-to-image synthesis.IEEE TMM,2019 蒸留の動機：キャプション生成タスクよりも画像テキストマッチングタスクがより適切な課題が設定されている (良設定問題) ・センテンス文法や流暢さを考慮する必要がない・正解間違いなどの損失関数などの定義が忠実生成タスクの指標は人間の判断とのギャップが依然存在 (CIDErや単語レベルのクロスエントロピー) キャプション生成タスクのモデルと画像テキストマッチングのモデルは独立に存在

image-text mopdelの学習は画像テキストのアライメントに依存し，expensive word-region alignmentに依存しない SCAN (image-text mattchiong model)を用いて弱教師のモデルとする：局所的な領域単語のアライメントを持てる ★Kuang-Huei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xi-aodong He. Stacked cross attention for image-text matching.InECCV, 2018 →ただし，全部の単語のアライメント推定精度は低いそのため，POS taggerを用いて名詞のみを用いてマッチングスコアを計算するPOS-SCANを提案

Self-Critical Sequence Training (SCST) についても検討 ★Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, JerretRoss, and Vaibhava Goel. Self-critical sequence training for image captioning. In CVPR, July 2017 SCANメトリックを報酬として組み込むことで通常のmetricのスコアを維持しつつ画像により忠実なキャプションを生成しようとする一方でPOS-SCANメトリックを用いると通常のｍetricsのスコアが悪化するが，良いgrounding resultsを得れる grounding vs captioningというジレンマを引き起こす

用いるcaption generate モデル：Up-dow captioning model Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvisual question answering. InCVPR, 2018

2 Related works

Image Captioning 初期はルールベース (REF.23, 26, 40) 最近はAttention-based Encoder-Decoder Model (REF. 6, 29, 35, 53, 56, 58, 59, 60) ・空間グリッドへのAttention (35, 56) ・意味的メタデータへのAttention (61,57, 12) Xu Yang, Kaihua Tang, Hanwang Zhang, and Jianfei Cai. Auto-encoding scene graphs for image captioning. InCVPR,2019. Longteng Guo, Jing Liu, Jinhui Tang, Jiangwei Li, Wei Luo,and Hanqing Lu. Aligning linguistic words and visual semantic units for image captioning. InACM MM, 2019. Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang, andJiebo Luo. Image captioning with semantic attention. InCVPR, 2016 ・オブジェクトレベルへのAtteniton (3, 18, 60, 64) Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.Attention on attention for image captioning. InICCV, 2019 Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvisual question answering. InCVPR, 2018. heng-Jun Zha, Daqing Liu, Hanwang Zhang, YongdongZhang, and Feng Wu. Context-aware visual policy networkfor fine-grained image captioning.IEEE TPAMI, 2019 いくつかの定量分析ではAttentionの正しさが満足いくもんではない (28, 38) + 周期的な学習でAttentionの監督を行っているが・・ ★Chih-Yao Ma, Yannis Kalantidis, Ghassan AlRegib, PeterVajda, Marcus Rohrbach, and Zsolt Kira. Learning to gen-erate grounded image captions without localization supervi-sion.arXiv preprint arXiv:1906.00283, 2019 ★→decoderとlocalizerが連携して学習され結合していることからモーダル崩壊が生じるため？：Rafael M ̈uller, Simon Kornblith, and Geoffrey E Hinton.When does label smoothing help? In NeurIPS, 2019

→ よりgrounding image captioningを生成するフレームワーク Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh.Neural baby talk. InCVPR, 2018

Image-text Matchging 局所的なアライメントに基づく手法 (19,.42, 24)

Visual Grounding 画像の記述の構成要素を画像から検出するタスク Samyak Datta, Karan Sikka, Anirban Roy, Karuna Ahuja,Devi Parikh, and Ajay Divakaran. Align2ground: Weaklysupervised phrase grounding guided by image-caption align-ment.arXiv preprint arXiv:1903.11649, 2019.などが弱監視付きgrounding modelを提案したフレームワーク

Knowledge Distillation 知識蒸留を用いて別タスクから別のモデルへと移行しようとする例：画像キャプションモデルからテキスト画像合成モデルへ知識を移行することを提案 Mingkuan Yuan and Yuxin Peng. Ckd: Cross-task knowl-edge distillation for text-to-image synthesis.IEEE TMM,2019

3 Approach captioning generationとimage-to-text matching modelの2つのコンポーネントについてと，その組み合わせ方について検出器で検出された領域の集合が画像の入力に：Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster r-cnn: Towards real-time object detection with regionproposal networks. InNeurIPS, 2015

3.1 Image-text matching model SCANを拡張してPOS-SCANの提案 Image Iの各領域の特徴量f_i [1,...k] textTの正解y_t [1,…,n] 次元に変換したimageとテキスト (領域)の近接度を計算 (eq.4 - eq.6) 各領域と各テキスト (word alignment)の近さを用いて損失関数を定義 (e.q 7, 8) (* e.q.8はe.q.7を名詞のみ考慮できるように改良)

3.2 caption Generator Up-down modelの適用 Attention LSTMとlanguage LSTMの2つで構成してCaptioningを生成

3.3 Learning to Generate more grounded captions 2つのステージに分割してモデルが訓練される・1st stage：Caption modelををクロスエントロピー損失の最小化で学習 + キャプションモデルのAttentionの重みbetaをPOS-SCANモデルから求めたAttentionの重みalphaのKL divergenceを用いて正則化 (もし，alignmentとcaptioningのデータがあればエントロピー損失関数で改良される)

・2nd stage：強化学習アルゴリズムを用いて報酬を最大化する損失関数とは現在のモデルの最高の出力を入力としてimage-to-textを行った時の結果，と生成されたサンプル文を入力として行った結果を用いてSCSTに当てはめて算出 (eq.18) CIDErとfine-grained local image-text matching scoreを組み合わせたものが報酬関数 (e.q.19) ＊SCSTを確認

4.3 Q1 image-text matching の方がimage captionnigよりもregion-word alignment accuracyは高いか？ SCANモデル (image-text matching)は低い精度 POS-SCAN (名詞に限定することで)高い精度

Q2 captioning モデルのgrounding performanceは向上するか？表2の1列目と4列目の比較を観るとPOS-SCANモデルを入れることでどのタスクでも何もないよりは精度が向上している

Q3 SCSTを行ってもgrounding performanceの性能は維持するのか？表2の1列目と2列目の比較 grounding とcaptioiningは相反する結果となっている

Q4 Image-text の類似度を報酬として取り組むと？ 2列目と3列目の比較

5 Conclusions 画像とテキストのマッチングモデルであるPOS-SCANを蒸留することで、grounding captionsを生成することが可能であることを示した。 → 既存のキャプションモデルの解釈可能性と多様性が向上

hkefka385 / paper_reading