Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

https://arxiv.org/abs/1707.07998
CVPR 2018

トップダウン型の視覚的注意メカニズムは、画像キャプションや視覚的質問応答（VQA）において、きめ細かな分析、さらには複数のステップの推論により、より深い画像理解を可能にするために広く用いられている。本研究では、ボトムアップとトップダウンを組み合わせた注意メカニズムを提案し、オブジェクトやその他の顕著な画像領域のレベルで注意を計算できるようにする。これは、注意を考慮するための自然な基盤です。このアプローチでは、ボトムアップメカニズム（Faster R-CNNに基づく）が、それぞれに関連する特徴ベクトルを持つ画像領域を提案し、トップダウンメカニズムが特徴の重み付けを決定する。このアプローチを画像キャプションに適用したところ、MSCOCOテストサーバでの結果は、CIDEr / SPICE / BLEU-4スコアがそれぞれ117.9、21.5、36.9となり、このタスクの新たな最先端を確立しました。この手法の幅広い応用性を示すために、同じアプローチをVQAに適用したところ、2017年のVQAチャレンジで1位を獲得しました。

approach

画像Iが与えられると、我々の画像キャプション・モデルとVQAモデルの両方は、各画像特徴が画像の顕著な領域をエンコードするような、可変サイズのk個の画像特徴のセット、V = {v1, ..., vk}, vi∈R Dを入力として受け取る。空間的な画像特徴Vは、我々のボトムアップ注意モデルの出力として、あるいは標準的な手法に従ってCNNの空間出力層として、さまざまに定義することができる。 3.1節では、ボトムアップ型注意モデルを実装するためのアプローチを説明します。セクション3.2では、画像キャプション・モデルのアーキテクチャの概要を示し、セクション3.3では、VQAモデルの概要を示す。トップダウン注意コンポーネントについては、どちらのモデルも単純なワンパス注意メカニズムを使用しているが、最近のモデルではスタック注意、マルチヘッド注意、双方向注意などのより複雑なスキームも適用可能である[47, 16, 20, 28]ことに留意されたい。

空間画像特徴Vの定義は一般的なものである。しかし、本研究では、空間領域をバウンディングボックスで定義し、Faster R-CNN[33]を用いてボトムアップアテンションを実装する。 Faster R-CNNは、特定のクラスに属するオブジェクトのインスタンスを識別し、バウンディングボックスを用いてそれらをローカライズするように設計されたオブジェクト検出モデルである。他の領域提案ネットワークもアテンションメカニズムとして学習することができる[32, 25]。 Faster R-CNNは、2つのステージでオブジェクトを検出します。

最初のステージは、Region Proposal Network（RPN）と表現され、オブジェクトの提案を予測する。小さなネットワークは、CNNの中間レベルの特徴の上にスライドされています。各空間位置において、ネットワークはクラスに依存しないオブジェクトネス・スコアと、複数のスケールとアスペクト比のアンカー・ボックスに対するバウンディング・ボックス・リファインメントを予測する。そして、IoU（intersection-over-union）閾値を用いた欲張りな非最大級の抑制により、トップボックス案が第2段階への入力として選択されます。

第2段階では、関心領域（RoI）プーリングを用いて、各ボックス案の小さな特徴マップ（例：14×14）を抽出する。これらの特徴マップは、CNNの最終層への入力として一括して処理されます。このモデルの最終的な出力は、クラスラベルに対するソフトマックス分布と、各ボックス案に対するクラス固有のバウンディングボックスの改良で構成されます。本研究では、Faster R-CNNとResNet-101 [13] CNNを併用しています。画像キャプションやVQAに使用する画像特徴Vの出力セットを生成するために、モデルの最終出力を取得し、IoU閾値を使用してオブジェクト・クラスごとに非最大抑制を行います。次に、いずれかのクラスの検出確率が信頼性の閾値を超えるすべての領域を選択します。選択された各領域iに対して、画像特徴ベクトルの次元Dが2048となるように、この領域から平均的にプールされた畳み込み特徴量としてviを定義します。この方法では、Faster R-CNNは「ハード」な注意メカニズムとして効果的に機能します。これは、多数の可能な構成から比較的少数の画像バウンディングボックス特徴のみが選択されるためです。ボトムアップアテンションモデルを前もって学習するために、まず、ImageNet [35]で分類するために前もって学習されたResNet-101でFaster R-CNNを初期化します。次に，Visual Genome [21]のデータで学習します．良い特徴表現の学習を助けるために、（オブジェクトクラスに加えて）属性クラスを予測するための追加の学習出力を追加します。領域iの属性を予測するために、平均的にプールされた畳み込み特徴量viと、学習されたグランドトゥルースのオブジェクトクラスの埋め込みを連結し、これを各属性クラスに対するソフトマックス分布と「属性なし」クラスを定義する追加の出力層に与える。オリジナルのFaster R-CNNマルチタスク損失関数には4つの成分が含まれており、それぞれRPNと最終的なオブジェクトクラスの提案に対する分類とバウンディングボックス回帰の出力に対して定義されています。これらの成分はそのままで、属性予測器を訓練するために、マルチクラス損失成分を追加します。図2では，モデルの出力例をいくつか示しています．

3.2. Captioning Model

画像の特徴のセットVが与えられたとき，我々が提案するキャプション生成モデルは，既存の部分的な出力シーケンスをコンテキストとして使用して，キャプション生成時に各特徴に重みを付ける「ソフトな」トップダウンの注意メカニズムを使用する．このアプローチは、いくつかの先行研究[34, 27, 46]と大まかに似ている。しかし、以下に説明する特定の設計上の選択により、比較的シンプルでありながら高性能なベースラインモデルを実現しています。ボトムアップの注意を払わなくても、我々のキャプションモデルは、ほとんどの評価指標で最先端のものに匹敵する性能を達成している（表1参照）。キャプションモデルは、標準的な実装[9]を用いた2つのLSTM[15]層で構成されています。以下のセクションでは，1つの時間ステップにおけるLSTMの動作を次の表記法で参照します：

ht = LSTM(xt, ht-1) (1)

ここで，xtはLSTMの入力ベクトル，htはLSTMの出力ベクトルです．ここでは、表記上の便宜のため、メモリセルの伝搬を無視している。ここで、モデルの各層におけるLSTMの入力ベクトルxtと出力ベクトルhtの定式化について説明します。図3は、キャプションモデルの全体像を示しています。

結論

私たちは、ボトムアップとトップダウンを組み合わせた新しい視覚的注意メカニズムを提案する。このアプローチにより、注意をオブジェクトやその他の顕著な領域のレベルでより自然に計算することができる。このアプローチを画像キャプションと視覚的質問応答に適用することで、結果として得られる注意の重みの解釈性を向上させつつ、両方のタスクで最先端の結果を得ることができた。このように、我々の研究は、視覚的および言語的理解を伴うタスクと、最近の物体検出の進歩とをより密接に結びつけるものである。この結果は、今後の研究の方向性を示唆しているが、我々のアプローチの直接的な利点は、事前に学習されたCNN特徴を事前に学習されたボトムアップの注意特徴に置き換えるだけで得られるかもしれない。

実装の詳細 6.1. ボトムアップアテンションモデル

ボトムアップアテンションのFaster R-CNNの実装では、領域提案の抑制には0.7のIoU閾値を、オブジェクトクラスの抑制には0.3のIoU閾値を使用しています。顕著な画像領域を選択するために、0.2のクラス検出信頼度のしきい値を使用し、画像kあたりの領域の数を画像の複雑さに応じて変化させ、最大100まで可能にします。しかし、初期の実験では、各画像の上位36個の特徴を選択するだけで、両方の下流タスクでほぼ同様に機能することがわかりました。 Visual Genome [21] には、画像ごとに比較的多くのアノテーションが含まれているため、このモデルの学習には比較的負荷がかかります。 8台のNvidia M40 GPUを使用した場合、380Kの学習反復を完了するのに約5日かかりますが、より高速な学習レジームも効果的であると思われます。

6.2. キャプションモデルキャプションモデルでは、各LSTMの隠れユニット数Mを1,000、注目層の隠れユニット数Hを512、入力単語の埋め込みサイズEを1,000に設定しました。学習には，シンプルな学習率スケジュールを用いた．まず，学習率を0.01とし，バッチサイズを100，運動量パラメータを0.9として，60K回の反復を経て直線的にゼロになるようにした． 2台のNvidia Titan X GPUを用いた学習には、約9時間を要します（CIDErの最適化には1時間弱を要します）。最適化とデコーディングでは、ビームサイズを5に設定しました。また、デコーディングの際には、1つの単語を連続して2回予測することはできないという制約を設けています。なお、キャプション・モデルとVQAモデルの両方において、画像の特徴は固定されており、微調整されていません。

6.3. VQAモデル VQAモデルでは、事前に学習されたGloVeベクトル[31]で初期化された300次元の単語埋め込みを使用し、512次元の隠れた状態を使用しています。 VQAモデルの学習にはAdaDelta [50]を使用し、early stoppingによる正則化を行う。モデルのトレーニングには、Nvidia K40 GPU 1台で12〜18時間かかります。 VQAモデルの実装の詳細については、Teney et al.［38］を参照してください。

e4exp / paper_manager_abstract

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering #290