e4exp / paper_manager_abstract

0 stars 0 forks source link

X-Linear Attention Networks for Image Captioning #172

Closed e4exp closed 4 years ago

e4exp commented 4 years ago

最近の微細化された視覚認識と視覚的な質問応答の進歩は、マルチモーダル入力間の2次相互作用を効果的にモデル化するバイリニアプーリングを特徴としています。 しかし、このような相互作用を画像キャプションのための注意メカニズムと同時に構築することを支持する証拠はこれまでなかった。 本論文では、バイリニアプーリングを完全に利用して、視覚情報を選択的に活用したり、マルチモーダルな推論を行ったりするための統一的な注意ブロックであるX-Linear注意ブロックを紹介する。 技術的には、X-Linear注目ブロックは、空間的にもチャンネル的にもバイリニアな注目分布を同時に利用して、入力された単一モーダルまたはマルチモーダル特徴の間の2次相互作用を捕捉することができる。 また、複数のX-Linearアテンションブロックを積み重ねることで、高次や無限大次の特徴間相互作用を容易にモデル化することができる。 さらに、X-Linear Attention Networks(X-LAN)と呼ばれる、X-Linear Attention Blocksを画像エンコーダーや画像キャプションモデルの文デコーダーに統合することで、高次のモーダル内・モーダル間インタラクションを活用することが可能となる。 COCOベンチマークでの実験では、我々のX-LANがCOCO Karpathyテストスプリットで132.0%という現在までに発表されている最高のCIDEr性能を獲得していることが実証されました。 トランスフォーマーにX-Linear注意ブロックを追加すると、CIDErは132.8%にまで向上した。 ソースコードは \url{this https URL}にあります。

e4exp commented 4 years ago

X-Linear Attention Networks for Image Captioning

スクリーンショット 2020-09-10 17 45 16

スクリーンショット 2020-09-10 17 44 53

まとめ