QueryとKeyの要素のすべてのペアごとの相互作用を考慮するため,それらのbilinear poolingを計算(外積に相当する).その結果から空間領域のためのattentionと,channelごとのattentionを作成.QとVからenhanced value featureを作成し,空間attentionと重み付き和を取り,さらにchannelごとのattentionと要素ごとの積を取る.
Jiasen Lu, Caiming Xiong, Devi Parikh, and Richard Socher. Knowing when to look: Adaptive attention via a visual sen-tinel for image captioning. InCVPR, 2017.
Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, et al. Visual genome: Connecting language and vision us-ing crowdsourced dense image annotations. IJCV, 2017.
visual genome.データセット?
Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. Self-critical sequence training for image captioning. InCVPR, 2017.
最近の微細化された視覚認識と視覚的な質問応答の進歩は、マルチモーダル入力間の2次相互作用を効果的にモデル化するバイリニアプーリングを特徴としています。 しかし、このような相互作用を画像キャプションのための注意メカニズムと同時に構築することを支持する証拠はこれまでなかった。 本論文では、バイリニアプーリングを完全に利用して、視覚情報を選択的に活用したり、マルチモーダルな推論を行ったりするための統一的な注意ブロックであるX-Linear注意ブロックを紹介する。 技術的には、X-Linear注目ブロックは、空間的にもチャンネル的にもバイリニアな注目分布を同時に利用して、入力された単一モーダルまたはマルチモーダル特徴の間の2次相互作用を捕捉することができる。 また、複数のX-Linearアテンションブロックを積み重ねることで、高次や無限大次の特徴間相互作用を容易にモデル化することができる。 さらに、X-Linear Attention Networks(X-LAN)と呼ばれる、X-Linear Attention Blocksを画像エンコーダーや画像キャプションモデルの文デコーダーに統合することで、高次のモーダル内・モーダル間インタラクションを活用することが可能となる。 COCOベンチマークでの実験では、我々のX-LANがCOCO Karpathyテストスプリットで132.0%という現在までに発表されている最高のCIDEr性能を獲得していることが実証されました。 トランスフォーマーにX-Linear注意ブロックを追加すると、CIDErは132.8%にまで向上した。 ソースコードは \url{this https URL}にあります。