Deep Reinforcement Learning-based Image Captioning with Embedding Reward

画像キャプションの作成は、画像の内容を理解することの複雑さと、それを自然言語で表現する多様な方法のために、困難な問題です。最近の深層ニューラルネットワークの進歩により、この問題のパフォーマンスは大幅に向上しています。最先端のアプローチの多くは、エンコーダ-デコーダの枠組みに沿って、逐次回帰予測モデルを用いてキャプションを生成しています。しかし、本論文では、画像キャプション作成のための新しい意思決定フレームワークを紹介します。ポリシーネットワーク」と「バリューネットワーク」を利用して、協調的にキャプションを生成します。ポリシーネットワークは、現在の状態に応じて次の単語を予測する信頼性を提供することで、ローカルガイダンスとしての役割を果たします。さらに、価値ネットワークは、現在の状態のすべての可能な拡張を評価することにより、グローバルで先見性のあるガイダンスとして機能します。つまり、正しい単語を予測するという目標を、グランドトゥルースのキャプションと同様のキャプションを生成するという目標に向けて調整します。両ネットワークの学習には、アクター批判型強化学習モデルを使用し、視覚的意味の埋め込みで定義された新しい報酬を用いています。 Microsoft COCOデータセットを用いた広範な実験と分析により、提案フレームワークが様々な評価指標において既存のアプローチよりも優れていることが示された。

1. はじめに

画像キャプションとは，画像の内容を自然言語で自動的に記述する作業であり，コンピュータビジョンの分野で関心が高まっている。これは，膨大な量の視覚情報を理解し，それを自然言語で表現するという，人間の中核的な知能を機械に与えることを目的としているからである。最近の最先端のアプローチ[3, 44, 30, 17, 7, 46, 15, 48, 43]は，エンコーダとデコーダのフレームワークに従って画像のキャプションを生成する．一般的には，畳み込みニューラルネットワークを用いて視覚情報をエンコードし，リカレントニューラルネットワークを用いてその情報をまとまった文章にデコードします．学習や推論の際には、リカレントな隠れた状態に基づいて、次の単語の確率を最大化しようとします。本論文では、画像キャプション作成のための新しい意思決定フレームワークを紹介する。逐次リカレントモデルを学習して次の正しい単語を貪欲に探す代わりに、「ポリシーネットワーク」と「バリューネットワーク」を利用して、各時間ステップで次の最適な単語を共同で決定する。方針ネットワークは、現在の状態に応じて次の単語を予測する信頼性を提供し、局所的なガイダンスとして機能します。価値ネットワークは、現在の状態のすべての可能な拡張の報酬値を評価するもので、グローバルかつ先見性のあるガイダンスとして機能します。このような価値ネットワークは、正しい単語を予測するという目標を、グランドトゥルースのキャプションに似たキャプションを生成するという目標に向けて調整します。我々のフレームワークでは、ポリシーネットワークだけでは描画される確率が低い良い単語を含めることができます。図1は，提案するフレームワークを説明するための例である．ホールディングという単語は、現在のステップではポリシーネットワークの最上位の選択肢に入っていません。しかし、我々の価値ネットワークは、holdingが生成されたと仮定した状態まで1ステップ進み、最終的に良いキャプションを生成するという目標に対して、そのような状態がどれだけ良いかを評価する。この2つのネットワークがお互いに補完し合うことで、holdingという単語を選択することができるのです。ポリシーネットワークとバリューネットワークの学習には、埋め込み報酬を用いた深層強化学習を使用します。まず、標準的な教師付き学習を用いて、クロスエントロピー損失で政策ネットワークを事前学習し、平均二乗損失で価値ネットワークを事前学習します。その後、深層強化学習によって政策ネットワークと価値ネットワークを改善する。強化学習は、ゲーム[38]や制御理論[32]などで広く利用されている。制御やゲームの問題は，もともと最適化するための具体的な目標があるが，画像キャプションの場合は，適切な最適化目標を定義することが非自明である．

本論文では、視覚的意味の埋め込み[11, 19, 36, 37]によって報酬を駆動するアクター・クリティック・モデル[21]を用いた学習を提案する。画像と文章の間の類似性の尺度を提供する視覚的意味論的埋め込みは、生成されたキャプションの正しさを測定することができ、強化学習において画像キャプションを最適化するための合理的なグローバルターゲットとして役立つ。我々は、このフレームワークの利点と特性を理解するために、詳細な分析を行った。 Microsoft COCOデータセット[29]を用いた大規模な実験により、提案手法はBLEU[34]、Meteor[25]、Rouge[28]、CIDEr[42]などの様々な評価指標において、一貫して最先端のアプローチを凌駕することが示された。本論文の貢献は以下のようにまとめられる。

ポリシーネットワークとバリューネットワークを活用した、画像キャプション作成のための新しい意思決定フレームワークを提案する。我々の手法は、MS COCOデータセットにおいて最先端の性能を達成した。我々の知る限り、意思決定フレームワークを画像キャプション作成に適用したのはこれが初めてである。
政策ネットワークと価値ネットワークを学習するために、視覚的意味の埋め込みを用いたアクター批判型強化学習アルゴリズムを導入した。我々の実験によると、埋め込みからの監視は、異なる評価指標に渡ってよく一般化される。

2. 関連作品

2.1. 画像キャプション付け

多くの画像キャプション付けアプローチが文献で提案されている。初期のアプローチでは、ボトムアップ型のパラダイム[10, 23, 27, 47, 24, 8, 26, 9]を用いてこの問題に取り組んでおり、まず物体認識と属性予測によって画像の説明語を生成し、次にそれらを言語モデルによって結合していた。最近では、機械翻訳におけるニューラルネットワークの使用の成功[4]に触発されて、エンコーダ-デコーダフレームワーク[3, 44, 30, 17, 7, 46, 15, 48, 43]が画像キャプションに持ち込まれました。研究者がこのようなフレームワークを採用したのは、画像を文章に「翻訳」することが、機械翻訳のタスクに類似していたからです。この枠組みに従ったアプローチは、一般的に、畳み込みニューラルネットワークによって画像を単一の特徴ベクトルとしてエンコードし[22, 6, 39, 41]、そのベクトルをリカレントニューラルネットワーク[14, 5]に与えてキャプションを生成します。その上で、様々なモデリング戦略が開発されてきた。 Karpathy and Fei-Fei [17], Fang et al. [9] は、画像内のオブジェクトを検出することで、モデルを強化する方法を提示した。人間の視覚システムを模倣するために[20]、意味のある細かいディテールに注目するようにモデルを誘導するために、空間的注意[46]と意味的注意[48]が提案された。定位とキャプションのタスクを同時に処理するために、Dense Captioning [16]が提案された。 Ranzatoら[35]は、シーケンスレベルの学習アルゴリズムを提案した。推論の際、ほとんどの最新の手法では、 greedy search や beam search を用いた共通のデコーダメカニズムを採用している。単語は局所的な信頼度に応じて順次描画される。局所的な信頼度が最も高い単語を常に予測するため，このようなメカニズムでは，初期の段階で良い単語を見逃してしまい，悪いキャプションになってしまう可能性がある。一方、本手法では、局所的なガイダンスに加えて、グローバルなガイダンスと先読みガイダンスを利用して、このようなエラーを補正します。

2.2. 意思決定

意思決定は，コンピュータゲーム[38]，制御理論[32]，ナビゲーションと経路計画[49]などの中核的な問題である．これらの問題では，環境と相互作用するエージェントが存在し，一連の行動を実行し，あらかじめ定義された目標を達成することを目指している．強化学習[45, 21, 40, 31]は，「ある累積報酬の概念を最大化するために，ソフトウェアエージェントが環境中でどのように行動すべきかに関する機械学習手法」として知られており，意思決定のタスクに適している．最近では，Silverら[38]によって，ディープニューラルネットワークとモンテカルロ木探索を用いたプロレベルのコンピュータ囲碁プログラムが設計された．人間レベルのゲーム制御[32]は，深層Q学習によって実現された．また，アクター批判型強化学習モデルを用いたビジュアル・ナビゲーション・システム[49]が提案されている．意思決定フレームワークは、画像キャプションには適用されていない。テキスト生成の先行研究[35]では，REINFORCE[45]を用いて，ユーザが指定した評価指標を直接最適化してモデルを学習している．このような評価指標駆動型のアプローチ[35]は，他の評価指標に一般化することが困難である．異なる評価指標間で良好な性能を発揮するためには，それぞれの評価指標に対して個別に再学習する必要がある．

本論文では，視覚的意味論的埋め込み[11, 19]を用いたアクター批判強化学習[21]を用いて，再学習なしに異なる評価指標間で良好に動作する学習手法を提案する．我々のアプローチは，[35]に比べて大幅な性能向上を示している．さらに，[35]が既存のエンコーダ-デコーダフレームワークを用いているのに対し，我々は意思決定フレームワークを用いてキャプションを生成している．

3. 深層強化学習に基づく画像キャプション作成

本節ではまず、深層強化学習に基づく画像キャプション作成のための定式化を定義し、視覚的意味の埋め込みによって定義される新しい報酬関数を提案する。そして、我々の学習手順と推論メカニズムを紹介する。

3.1. 問題設定

画像キャプション作成を意思決定プロセスとして定式化する。意思決定においては，環境と相互作用するエージェントが存在し，ゴールを最適化するために，一連の行動を実行する．画像キャプション作成では，画像Iが与えられたときに，画像の内容を正しく記述する文S = {w1, w2, ..., wT }を生成することが目標となる（wiは文Sの単語，Tは長さ）．政策ネットワークp_πと価値ネットワークv_θを含む我々のモデルは、エージェントと見なすことができる。環境は、与えられた画像Iとこれまでに予測された単語{w1, ..., wt}であり、行動は次の単語wt+1を予測することである。

3.1.1 状態と行動の空間

意思決定プロセスは一連の行動で構成されている。各アクションaの後、状態sが観察される。我々の問題では，タイムステップtにおける状態s_tは，画像Iとtまでに予測された単語{w1, ..., wt}からなる．

3.1.2 ポリシーネットワーク

ポリシーネットワークp_πは，エージェントが各状態で行動を起こす確率p_π(a_t|s_t)を提供する．本稿では、畳み込みニューラルネットワーク（CNN）とリカレントニューラルネットワーク（RNN）を用いてポリシーネットワークを構築し、CNN_pとR_NNpと表記します。これは、エンコーダ・デコーダ・フレームワークで使用される基本的な画像キャプション・モデル[44]に似ています。図2に示すように、まず、CNNpを使って画像Iの視覚情報をエンコードし、その視覚情報をRNNpの初期入力ノードx0∈R nに入力する。 RNNpの隠れた状態h_t∈R^mが時間tに渡って進化すると、各時間ステップでa_tの行動をとる方針が示される。

tで生成された単語w_tは、次の時間ステップでネットワーク入力x_t+1としてRNNpにフィードバックされ、RNNpの状態がh_tからh_t+1に遷移する原動力となる。具体的には、p_πの主な作業フローは以下の式で支配される。

ここで、Wx,vは視覚情報の線形埋め込みモデルの重み、φとφはRNNpの入力モデルと出力モデルを示す。

3.1.3 価値ネットワーク

我々の価値ネットワークvθを紹介する前に、まず政策pの価値関数v^pを定義する。 v^pは、意思決定プロセスが政策pに従っていると仮定して、観測された状態stから総報酬r（3.2節で後に定義される）を予測するものとして定義される。

価値関数を価値ネットワークを用いて近似し、vθ（s）≒v_p（s）とする。これは、状態s_t = {I, w1, ..., wt}の評価として機能します。図3に示すように、バリュー・ネットワークはCNN、RNN、MLP（Multilayer Perceptron）で構成されており、CNNv、RNNv、MLPvと表記されています。このバリュー・ネットワークは、生の画像と文の入力を受け取ります。 CNNvはIの視覚情報をエンコードするために利用され、RNNvは部分的に生成された文{w1, ..., wt}の意味情報をエンコードするために設計されています。すべてのコンポーネントは同時に学習され、s_tからのスカラー報酬を回帰させる。

3.2. 視覚的意味のある埋め込みによる報酬

我々の意思決定フレームワークでは、具体的で合理的な最適化目標、すなわち強化学習の報酬を定義することが重要である。我々は、報酬として視覚的意味的埋め込みの類似性を利用することを提案する。視覚的意味論的埋め込みは，画像分類[11, 37]や検索[19, 36, 33]などに応用されている．埋め込みモデルは，CNN，RNN，線形マッピング層で構成されており，CNNe，RNNe，feと表記している．画像と文の1つの意味的な埋め込み空間へのマッピングを学習することで、画像と文の間の類似性の尺度を提供する。文Sが与えられたとき、その埋め込み特徴は、RNNeの最後の隠れた状態、すなわち、h′T（S）を用いて表される。ここで，vはCNNeによって抽出された画像Iの特徴ベクトルであり，fe(-)は画像特徴から埋め込み空間へのマッピング関数である．埋め込みモデルの学習には、画像キャプション作成時と同じ画像と文のペアを用いる。 CNNeの重みを固定し、RNNeの重みとfe(-)を、以下のように定義される双方向ランキング損失を用いて学習する。

ここでβは交差検証されたマージンであり、各(v, S)はグランドトゥルースの画像と文のペアであり、S -はvに対応する画像に対する否定的な記述を表し、v -はその逆である。特徴量 v ∗ を持つ画像が与えられたとき、生成された文 Sb の報酬を、Sb と v ∗ との埋め込み類似度と定義する。

3.3. 深層強化学習による学習

[38]に従い、pπとvθを2つのステップで学習する。最初のステップでは，クロスエントロピー損失を用いた標準的な教師付き学習を用いて政策ネットワークpπを学習する．ここで，損失関数はLp′ = -log p(w1, ..., wT |I; π) = - sum^T_{ t=1} log p_π(a_t|st) と定義される．そして、平均二乗損失、||vθ(si) - r||^2（rは生成文の最終報酬、siは生成過程でランダムに選択された状態を示す）を最小化することで価値ネットワークを学習する。生成された1つの文では、連続する状態は強い相関があり、わずか1語の違いであるが、回帰目標はキャプション作成プロセス全体で共有されている。そのため、オーバーフィッティングを防ぐために、それぞれの文から1つの状態をランダムにサンプリングします。第2段階では、深層強化学習（RL）を用いてpπとvθを共同で学習します。エージェントのパラメータはΘ={π, θ}で表され、環境と相互作用したときにエージェントが期待できる総報酬を最大化することでΘを学習します。 J(Θ) = E{s1...T ∼pπ} ( sum^T_{t=1} r_t).ただし r_t = 0 ∀ 0 < t < T and rT = rとして、J(Θ) = E{s1...T ∼p_π} (r)となります。 Jを正確に最大化することは、未知の環境ダイナミクスを含む可能性のある高次元の相互作用シーケンスに対する期待値を含むため、自明ではありません。しかし、この問題を部分的に観測可能なマルコフ決定過程と見なすことで、RLの文献から得られた技術を活用することができます。 45, 40, 31]で示されているように、勾配のサンプル近似は

ここでは、価値ネットワークvθが移動ベースラインとして機能する。価値ネットワークの評価を用いた減算は、政策勾配のはるかに低い分散推定値につながります。勾配のスケーリングに使用される量r - vθ(s_t)は、状態s_tにおけるアクションa_tの優位性の推定値と見なすことができます。このアプローチは、ポリシーp_πがアクターで、vθが批評家であるアクター・批評アーキテクチャと見なすことができます。しかし、画像キャプションにおける強化学習は、他の意思決定問題に比べて行動空間が大きいため、学習が困難である。画像キャプションの行動空間は、語彙の大きさに等しい103のオーダーであるのに対し、[49]のビジュアル・ナビゲーションの行動空間は、行くべき4つの方向を示す4つだけである。この問題に対処するために、我々は[35]に従い、カリキュラム学習[1]をアクター・クリティックモデルの学習に適用する。安定した文章を生成するようにモデルを徐々に学習させるために、徐々に難易度の高い学習サンプルを提供する。反復的に、最初の(T - i × ∆)個の単語をクロスエントロピー損失で固定し、強化学習を用いて文章全体を学習するまで、i = 1, 2, ...について、残りのi × ∆個の単語で俳優批判モデルを学習させる。

3.4. ポリシーネットワークとバリューネットワークを用いた先読み推論

既存のフレームワークに対する提案する意思決定フレームワークの重要な貢献の1つは、推論メカニズムにある。例えば、AlphaGo [38]は、MCTSを用いて両方のガイダンスを組み合わせていた。画像キャプション作成において、我々は、ポリシーネットワークのローカルガイダンスとバリューネットワークのグローバルガイダンスを組み合わせた新しいルックアヘッド推論メカニズムを提案する。学習された価値ネットワークは、各決定に対して先見性のある評価を提供し、ポリシーネットワークを補完し、キャプションを共同で生成することができる。ビームサーチ（BS）は、既存の画像キャプション作成アプローチにおいて最も普及しているデコーディング方法であり、各タイムステップにおいてトップBの高得点候補を保存する。ここでBはビーム幅である。時刻tにおいてBSが保持するB個のシーケンスの集合をW⌈t⌉={w1,⌈t⌉, ..., wB,⌈t⌉}とすると，各シーケンスはそれまでに生成された単語であり，wb,⌈t⌉={wb,1, ..., wb,t}となる。各タイムステップtにおいて、BSはこれらのビームのすべての可能な単一単語の拡張を考慮し、セットWt+1 = W⌈t⌉ × Yで与えられ、トップ-Bの最もスコアの高い拡張を新しいビームシーケンスW⌈t+1⌉として選択する。

ここで、演算子argtopBは、Wt+1のB×｜Y｜個のメンバーをソートすることで実行されるtop-B演算の取得を示し、S(-)は、生成されたシーケンスのスコアリング関数を示す。既存の画像キャプションのBSでは，S(-)は生成されたシーケンスの対数確率である．しかし，このようなスコアリング関数は，良いキャプションに含まれるすべての単語の対数確率が最上位の選択肢でなければならないと仮定しているため，良いキャプションを見逃す可能性がある。これは必ずしも真実ではありません。同様に、AlphaGoでは、すべての手が最高確率であるとは限りません。最終的な報酬が最適化されるのであれば、確率の低い行動が選択されることを許容することは有益である。この目的のために、我々はポリシーネットワークとバリューネットワークを組み合わせて、Wt+1のすべての選択肢を考慮するルックアヘッド推論を提案する。この推論では、現在の政策と先行する報酬評価の両方を考慮して各行動を実行する、すなわち

ここでS(wb,⌈t+1⌉)は現在の配列wb,⌈t⌉を単語wb,t+1で拡張するスコア、log pπ(at|st)はwb,t+1を拡張と予測するポリシーネットワークの信頼度、vθ({st, wb,t+1})はwb,t+1が生成されたと仮定した状態のバリューネットワークの評価を示す。 0≦λ≦1は、ポリシーネットワークとバリューネットワークを組み合わせたハイパーパラメータで、4.5節で実験的に分析する予定である。

4. 実験

本節では、提案したフレームワークを評価するために、広範な実験を行います。報告されているすべての結果は、Microsoft COCOキャプション評価ツール[2]を用いて計算されており、BLEU、Meteor、Rouge-L、CIDErといった、公正で徹底した性能測定のために一般的に使用されているメトリクスを含んでいます。まず、データセットと実装の詳細について説明する。次に、提案手法を画像キャプションに関する最先端のアプローチと比較する。最後に、提案手法の詳細な分析を行う。

4.1. データセットと実装の詳細

データセット

画像キャプション作成タスクに広く使われているMS COCOデータセット[29]を用いて，我々の手法を評価する．公平に比較するために、我々は[17]で提案された一般的に使用されている分割を採用し、トレーニング用に82,783枚の画像、検証用に5,000枚の画像、テスト用に5,000枚の画像を使用しています。各画像には，異なるAMT作業者によって少なくとも5つのキャプションが付けられている．キャプションの前処理（辞書の構築、トークン化など）は[17]に従っています。ネットワーク・アーキテクチャ図2と図3に示すように、ポリシー・ネットワークとバリュー・ネットワークの両方にCNNとRNNが含まれています。これらのネットワークには同じCNNとRNNのアーキテクチャを採用していますが、独立して学習しています。 CNNアーキテクチャにはVGG-16 [39]を、RNNアーキテクチャにはLSTM [14]を採用しています。 LSTMの入力ノード次元と隠れた状態の次元はともに512、つまりm = n = 512に設定されています。 CNNやRNNのアーキテクチャは、ResNet [12]やGRU [5]など、多くの文献があります。その中には、我々が使っているものよりも優れた性能が報告されているものもあります。既存の手法と公平に比較するために、最新のアーキテクチャは使用していません。我々のバリュー・ネットワークでは，スカラーの報酬値に回帰する3層のMLPを使用し，その間に1024デミと512デミの隠れ層を設けています．図3では、視覚的特徴と意味的特徴を連結することで、状態stを表現している。視覚的特徴は512次元の埋め込み特徴で、4096次元のCNNv出力からマッピングされています。意味的特徴は、最後のタイムステップでのRNNvの512次元の隠れた状態です。したがって、stの次元は1024です。

視覚的意味論的埋め込み

視覚的意味論的埋め込みは、画像と文章を同じ空間にマッピングすることで、それらの間の類似性を測定することができる。我々は[19]に従い、CNNeとしてVGG-16[39]を、RNNeとしてGRU[5]を用いた。式6の画像特徴vは，VGG-16の最後の4096次元の層から抽出される． GRUの入力ノード次元は300、隠れた状態の次元は1024とした。 fe(-)は4096×1024の線形写像層である。式6のマージンβは0.2とした。

学習内容

学習では、Adam[18]アルゴリズムを用いてモデルの更新を行う。事前に学習したVGG-16モデルを使用する以外は、データセットに含まれる画像とキャプションのみを使用してネットワークと埋め込みの学習を行い、外部データは一切使用していないことに注目したい。カリキュラム学習のΔを2とし、テストでは、提案されているルックアヘッド推論メカニズムを用いて、特別なエンドトークンに到達するまで単語を連続して描くことでキャプションを形成する。モデルのアンサンブルは使用しない。

4.2. 最先端の手法との比較

表1では，我々の手法と既存の手法の結果をまとめている．ほとんどの評価指標において，MS COCO において最先端の性能が得られた．なお，Semantic ATT [48]では，ソーシャルメディアからのリッチな追加データを利用して視覚的属性予測器を学習し，DCC [13]では，独自の転送能力を証明するために外部データを利用している．これにより、外部の学習データを使用しない他の手法とは比較にならない結果が得られています。驚くべきことに、外部の学習データがなくても、我々の手法は[48, 13]を上回っている。 48, 13]以外の手法と比較すると、我々の手法はBleu-1を除く全ての指標で大幅な改善を示しており、我々の手法は2位となっている。 Bleu-1は単一単語の精度に関連しており、我々の手法と[46]との間でBleu-1の性能差があるのは、単語ボキャブラリの前処理が異なるためと考えられる。 MIXER[35]は、メトリック駆動型の学習法である。35]を用いてBleu-4で学習されたモデルは、他のメトリックに一般化することは難しい。我々の埋め込み駆動型の意思決定アプローチは、すべてのメトリクスにおいて良好なパフォーマンスを示します。特に、図2に示した我々のポリシーネットワークが、Google NIC [44]に似た非常に基本的な画像キャプションモデルに似たメカニズムに基づいていることを考えると、[44]に対するこのような大幅な改善は、ポリシーネットワークとバリューネットワークの両方を利用する提案された意思決定フレームワークの有効性を検証するものである。

さらに、提案されているフレームワークは、ネットワークのデザインに合わせてモジュール化されています。空間的注意や意味的注意などの他の強力なメカニズムは、政策ネットワークに直接統合することができ、パフォーマンスをさらに向上させることができます。提案された埋め込み駆動型の意思決定フレームワークは、既存の手法とは大きく異なるため、洞察に満ちた分析を行い、以下の質問に答えたいと思います。

1) エンベッディングはどのくらい強力なのか？パフォーマンスの向上はフレームワークによるものか、エンベッディングだけによるものか？ 2) ルックアヘッド推論はどれほど重要か？ 3）強化学習はフレームワークの中でどのように重要なのか？ 4）バリューネットワークが図3のように設計されている理由は？ 5) ハイパーパラメータλとビームサイズにどのくらい敏感なのか？

これらの質問に答えるために、以下の3つのセクションで詳細な分析を行います。

4.3. 各コンポーネントの貢献度は？

このセクションでは、上記の質問1）2）3）に答えます。セクション3.3で述べたように、我々は政策と価値のネットワークを、事前学習と強化学習の2つのステップで学習する。教師付き学習で事前に学習した初期の政策ネットワークを(SL)と呼ぶことにする。また、平均二乗損失を用いて学習した初期の価値ネットワークを(RawVN)と呼ぶ。 SLモデルは、バリューネットワークやルックアヘッド推論を使用しない我々のベースラインとして使用することができる。埋め込みの影響を評価するために，以下のようにSLに埋め込みを組み込んだ． SLのビーム探索の最後のステップで，ビーム状のキャプション候補が生成されたときに，それらの候補を対数確率以外のテスト画像との埋め込みの類似性に応じてランク付けし，最終的に最も高い埋め込みスコアを持つものを出力する．このベースラインを(SL-Embed)と呼ぶ。また、先読み推論と強化学習の効果を検証するために、SLとRawVNに先読み推論を加えたベースラインを構築し、これを(SL-RawVN)と名付ける。最後に、我々のフルモデルを(Full-model)と名付けました。表2に示された我々の方法のこれらのバリエーションの結果によると、我々は上記の質問1）〜3）に答えることができます。

1. 埋め込みのみの場合、SL-EmbedはSLのベースラインよりもわずかに良い性能を示す。しかし、SL-EmbedとFull-modelの差は非常に大きい。したがって、エンベッディングを単独で使用することは強力ではないと結論づけている。提案されたエンベッディング駆動の意思決定フレームワークは、我々の手法のメリットである。
ルックアヘッド推論を用いることで、SL-RawVNはSLベースラインよりもはるかに優れている。これは、ローカルおよびグローバルガイダンスの両方を利用する、提案されたルックアヘッド推論の重要性を検証するものです。
1. 強化学習後、我々のFull-modelはSL-RawVNよりも優れた性能を示した。このことから、モデルの学習に埋め込み駆動型のアクター批判学習を用いることの重要性が検証された。

図4は、我々の手法とSLベースラインのキャプション作成結果を示したものである。 GTはground truth captionを意味する。最初の3列では、我々の手法とSLベースラインを比較している。最初の3つの列では、我々の手法とSLベースラインを比較していますが、我々の手法は、最初の列の画像にあるスノーボードや傘のように、SLでは見落とされがちな重要なオブジェクトを認識するのに優れています。また、2列目の画像では「座っている以外に食べる」という単語を生成しているように、間違った単語を生成してエラーを蓄積する可能性を低減することができます。さらに、グローバルガイダンスのおかげで、本手法はグローバルレベルで正しいキャプションを生成することに優れています。最後に、我々の手法の2つの失敗例を最後の列に示します。このケースでは、画像のごく一部を占める重要なビジュアルコンテンツを理解できませんでした。これは、我々のポリシー・ネットワーク・アーキテクチャに起因するものと思われる。将来的には、検出や注意などのより詳細な視覚的モデリング技術を追加することで、このような問題を軽減することができます。

4.4. 価値ネットワークのアーキテクチャ分析

本論文では、そのアーキテクチャが注目に値する価値ネットワークを含む新しいフレームワークを提案する。図3のように、CNNvとRNNvを使用して、生の画像と文の入力から視覚的および意味的な情報を抽出します。各時間ステップにおけるポリシーネットワークの隠れた状態は、各状態の表現でもあるので、「ポリシーの隠れた状態を直接利用できるか」というのは自然な疑問である。この疑問に答えるために、我々のバリューネットワークの2つのバリエーションを構築する。 1つ目のバリエーションは(hid-VN)と名付けられ、RNNpのポリシー隠れた状態の上にMLPvを構成し、2つ目のバリエーションは(hid-Im-VN)と名付けられ、RNNpのポリシー隠れた状態とポリシーRNNpの視覚入力x0を連結した上にMLPvを構成する。その結果を表2に示します。このように、政策的隠蔽状態を利用したモデルは、我々のFullモデルと比較して、どちらもうまく機能していません。政策的隠蔽状態の問題点は、圧縮され、多くの情報が失われることです。したがって、図3のように、生の画像と文の入力を使って、独立したCNNやRNNをトレーニングするのが合理的であり、より良い方法です。

4.5. パラメータの感度分析

本手法には、式10のλとビームサイズという2つの主要なハイパーパラメータがある。このセクションでは、上記の質問5）に答えるために、それらの感度を分析する。表3では、λが我々の手法に与える影響の評価を示している。式10と同様に、λは先読み推論におけるポリシーネットワークとバリューネットワークを組み合わせたハイパーパラメータで、0≦λ≦1である。 λ=0は先読み推論にバリューネットワークのみを用いることを意味し、λ=1はポリシーネットワークのみを用いることを意味し、これはビームサーチと同じである。表3に示すように、λ=0.4のときに最も高い性能が得られました。 λを0.4から0に下げたり、0.4から1に上げたりすると、全体的に単調に性能が低下していきます。これは、両方のネットワークの重要性を示すもので、先読み推論においてどちらかのネットワークを強調しすぎるべきではありません。また、λ=0はλ=1に比べて性能が大幅に低下します。これは、政策ネットワークが、逐次予測で非常に重要なローカルガイダンスを提供するからです。そのため、ルックアヘッド推論では、グローバルなガイダンス、つまり、我々のアプローチであるバリューネットワークのみを使用した場合、それは弱すぎる。表4では、異なるビームサイズがSLベースラインと我々のフルモデルに与える影響を評価しています。 17]などの先行研究で発見されたように、ビームサイズが大きくなると、画像キャプションの性能が低下する。我々は、この発見を既存のエンコーダ・デコーダフレームワークで検証しました。表4の上半分に示すように、5から100までの5つの異なるビームサイズで、我々のSLベースラインをテストした。 SLはビーム探索に基づいており、ほとんどの既存のアプローチと同様に、エンコーダとデコーダのフレームワークに従っていることに注意してください。見ての通り、ビームサイズがSLに与える影響は比較的大きい。これは主に、ビームサイズを大きくすると、悪い単語候補がビームに引き込まれる可能性が高くなるためです。なぜなら、逐次単語生成器によって提供される信頼性は、ローカルな情報を考慮するだけだからです。一方、表4の下段に示すように、我々の手法はビームサイズに対する感度が低い。異なるビームサイズ間の性能の変化はかなり小さい。これは、ポリシーネットワークとバリューネットワークの両方を考慮するルックアヘッド推論を提案しているからだと考えられる。ローカルガイドとグローバルガイドを用いることで、我々のフレームワークはポリシーのミスに対してよりロバストで安定している。

e4exp / paper_manager_abstract