最近の微細化された視覚認識と視覚的な質問応答の進歩は、マルチモーダル入力間の2次相互作用を効果的にモデル化するバイリニアプーリングを特徴としています。しかし、このような相互作用を画像キャプションのための注意メカニズムと同時に構築することを支持する証拠はこれまでなかった。本論文では、バイリニアプーリングを完全に利用して、視覚情報を選択的に活用したり、マルチモーダルな推論を行ったりするための統一的な注意ブロックであるX-Linear注意ブロックを紹介する。技術的には、X-Linear注目ブロックは、空間的にもチャンネル的にもバイリニアな注目分布を同時に利用して、入力された単一モーダルまたはマルチモーダル特徴の間の2次相互作用を捕捉することができる。また、複数のX-Linearアテンションブロックを積み重ねることで、高次や無限大次の特徴間相互作用を容易にモデル化することができる。さらに、X-Linear Attention Networks(X-LAN)と呼ばれる、X-Linear Attention Blocksを画像エンコーダーや画像キャプションモデルの文デコーダーに統合することで、高次のモーダル内・モーダル間インタラクションを活用することが可能となる。 COCOベンチマークでの実験では、我々のX-LANがCOCO Karpathyテストスプリットで132.0%という現在までに発表されている最高のCIDEr性能を獲得していることが実証されました。トランスフォーマーにX-Linear注意ブロックを追加すると、CIDErは132.8%にまで向上した。ソースコードは \url{this https URL}にあります。

X-Linear Attention Networks for Image Captioning

paper
- https://arxiv.org/abs/2003.14080
- Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei
github
- https://github.com/JDAI-CV/image-captioning
データセット
- COCO
project

スクリーンショット 2020-09-10 17 45 16

スクリーンショット 2020-09-10 17 44 53

まとめ

どんなもの？
- image captioningにおいて，bilinear pooling(画像と言語のマルチモーダル入力の2次の相互作用)を構築するように拡張したattentionであるX-Linear attention blockを提案．これを複数積み重ねることで，より高次の特長の相互作用をモデリングできる(ELUを使うことで無限次の相互作用も可能)．
先行研究と比べてどこがすごい？
- image captioning用にimage encoderとlanguage decoderにこのブロックを導入したネットワークX-LANはCOCOでsotaを達成．
技術や手法のキモはどこ？
- X-Linear attention block
  - QueryとKeyの要素のすべてのペアごとの相互作用を考慮するため，それらのbilinear poolingを計算(外積に相当する)．その結果から空間領域のためのattentionと，channelごとのattentionを作成．QとVからenhanced value featureを作成し，空間attentionと重み付き和を取り，さらにchannelごとのattentionと要素ごとの積を取る．
- ブロックを積み重ねる際は，前のブロックの出力vを次のブロックのQuery，次のブロックのK, Vは前のブロックの出力vと前のブロックのK,Vの要素を使って更新操作したものを使用
- X-LANは，encoder側でFaster-RCNNで画像から特徴領域を抽出し，X-Linear attention blockを適用(decoder側の隠れ状態は使わない)，decoder側ではLSTMの後段にblockをはさみ，GLUとlinearを経てsoftmaxで単語出力
どうやって有効だと検証した？
- AoANet等image captioningのsotaを含む手法とBLUE@N, METEOR, ROUGE-L, CIDErで比較．
- X-LANの構造を変えたアブレーションスタディ．blockは4つ以上積んでも効果がない．それ以上の相互作用がほしければELUを使う
議論はある？
次に読むべき論文は？
- Jiasen Lu, Caiming Xiong, Devi Parikh, and Richard Socher. Knowing when to look: Adaptive attention via a visual sen-tinel for image captioning. InCVPR, 2017.
  - image captioning の先行研究．decoding段階で画像領域に注目するかどうかを適応的に決定する
- Yu Qin, Jiajun Du, Yonghua Zhang, and Hongtao Lu. Look back and predict forward in image captioning. In CVPR, 2019.
  - image captioning の先行研究．前時刻のattention wegithsを現在のattentionの測定に統合する
- Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, et al. Visual genome: Connecting language and vision us-ing crowdsourced dense image annotations. IJCV, 2017.
  - visual genome．データセット?
- Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Self-critical sequence training for image captioning. InCVPR, 2017.
  - 訓練手法
その他
- なぜ高次の相互作用になるのかまだ理解できてない

e4exp / paper_manager_abstract

X-Linear Attention Networks for Image Captioning #172

X-Linear Attention Networks for Image Captioning

まとめ