SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

https://arxiv.org/abs/1609.05473
2017 AAAI

識別モデルを用いて生成モデルを学習するGenerative Adversarial Nets (GAN)は、生成モデルを学習する新しい方法として、実値データの生成に大きな成功を収めている。しかし、離散的なトークンのシーケンスを生成することを目的とした場合には、限界があります。その主な理由は、生成モデルからの出力が離散的であるため、識別モデルから生成モデルへの勾配更新を行うことが困難であるためです。また、識別モデルは完全なシーケンスしか評価できないが、部分的に生成されたシーケンスの場合、現在のスコアと、シーケンス全体が生成された後の将来のスコアのバランスをとることは容易ではない。本論文では、これらの問題を解決するために、SeqGANと呼ばれる配列生成フレームワークを提案する。 SeqGANは、データ生成器を強化学習(RL)における確率的政策としてモデル化し、勾配政策の更新を直接行うことで生成器の微分問題を回避する。 RLの報酬信号は、完全なシーケンスに基づいて判断されたGAN識別器から来ており、モンテカルロ探索を用いて中間の状態行動ステップに戻されます。合成データや実世界のタスクを用いた大規模な実験により、強力なベースラインに比べて大幅な改善が見られた。

はじめに

実データを模倣した逐次的な合成データの生成は，教師なし学習における重要な問題である。近年，長短記憶（LSTM）セル（Hochreiter and Schmidhuber 1997）を備えたリカレントニューラルネットワーク（RNN）が，自然言語の生成から手書き文字の生成まで，優れた性能を示している（Wen et al.2015; Graves 2013）。 RNNを学習するための最も一般的なアプローチは、以前に観測されたトークンを与えて、学習シーケンスの各真のトークンの対数予測尤度を最大化することである（Salakhutdinov 2009）。しかし、(Bengio et al. 2015)で論じられているように、最尤アプローチは、推論段階において、いわゆる暴露バイアスに悩まされます。モデルは、反復的にシーケンスを生成し、訓練データでは決して観測されない可能性のある以前に予測されたものを条件として、次のトークンを予測します。このようなトレーニングと推論の間の不一致は、シーケンスに沿って累積的に発生し、シーケンスの長さが長くなると顕著になります。この問題を解決するために、(Bengio et al. 2015)はスケジューリングサンプリング(SS)と呼ばれる学習戦略を提案した。これは、学習段階で次のトークンを決定する際に、生成モデルに真のデータではなく、自身の合成データをプレフィックス(観測されたトークン)として部分的に与えるというものである。とはいえ、(Huszar 2015)は、SSが矛盾した学習戦略であり、問題を根本的に解決できないことを´示した。

訓練/推論の不一致問題の別の可能な解決策は、各遷移の代わりに生成されたシーケンス全体に損失関数を構築することです。例えば、機械翻訳のアプリケーションでは、タスクに特化したシーケンススコア/ロスであるBLEU（bilingual evaluation understudy）（Papineni et al.2002）をシーケンス生成のガイドとして採用することができる。しかし、詩の生成(Zhang and Lapata 2014)やチャットボット(Hingston 2009)など、他の多くの実用的なアプリケーションでは、タスク固有の損失が、生成されたシーケンスを正確にスコアリングするために直接利用できない場合があります。

(Goodfellow and others 2014)が提案したGAN(General Adversarial Net)は、上記の問題を軽減するための有望なフレームワークである。具体的には、GANでは、識別ネットDが、与えられたデータインスタンスが本物かどうかを区別することを学習し、生成ネットGが、高品質のデータを生成することでDを混乱させることを学習します。このアプローチは成功しており、主に自然な画像のサンプルを生成するコンピュータビジョンのタスクに適用されています（Denton et al.2015）。

残念ながら、GANをシーケンスの生成に適用するには2つの問題がある。まず、GANは実値の連続データを生成するために設計されていますが、テキストのような離散的なトークンのシーケンスを直接生成することは困難です（Huszar 2015）。その理由は、GANでは、生成者がまずランダムなサンプリングから始まり、次にモデルのパラメータに支配された決定論的変換を行うからである。このように、Gによる出力に対するDからの損失の勾配は、生成モデルG（パラメータ）が生成された値をわずかに変化させて、より現実的な値にするように導くために使用されます。生成されたデータが離散的なトークンに基づいている場合、限られた辞書空間の中でそのようなわずかな変化に対応するトークンはおそらく存在しないので、識別ネットからの「わずかな変化」の案内はほとんど意味を持ちません（Goodfellow 2016）。第二に、GANはシーケンス全体が生成されたときにしかスコア/ロスを与えることができず、部分的に生成されたシーケンスについては、現在の良さとシーケンス全体としての将来のスコアのバランスをとることは自明ではない。本論文では、上記2つの問題を解決するために、(Bachman and Precup 2015 Bahdanau et al. 2016)に倣い、シーケンス生成手順を逐次的な意思決定プロセスとして考える。

生成モデルは強化学習(RL)のエージェントとして扱う状態はこれまでに生成されたトークンであり、行動は次に生成されるトークンである。報酬を与えるために機械翻訳におけるBLEUのようなタスク固有のシーケンススコアを必要とする (Bahdanau et al. 2016)の研究とは異なり、我々はシーケンスを評価する識別器を採用し、生成モデルの学習を導くために評価をフィードバックする。出力が離散的な場合、勾配が生成モデルに戻らないという問題を解決するために、生成モデルを確率的なパラメータ化されたポリシーとみなす。政策勾配では、モンテカルロ(MC)探索を用いて、状態作用値を近似する。政策勾配を用いて政策（生成モデル）を直接学習する（Sutton et al.1999）ことで、従来のGANにおける離散データに対する微分の難しさを回避することができる。提案されたSeqGANの有効性と特性を調べるために、合成データと実データに基づく広範な実験が行われた。我々の合成データ環境では、SeqGANは最尤法、スケジュールされたサンプリング、PG-BLEUを大幅に凌駕した。実世界の3つのタスク、すなわち、詩の生成、音声言語の生成、音楽の生成において、SeqGANは、人間の専門家の判断を含む様々な指標において、比較したベースラインを有意に上回った。

結論

本論文では、政策勾配を介して構造化された配列生成のための生成的敵対的ネットを効率的に学習するための配列生成手法SeqGANを提案した。我々の知る限り、これはGANを拡張して離散的なトークンのシーケンスを生成する初めての研究である。合成データ実験では、オラクル評価メカニズムを用いて、ベースラインに対するSeqGANの優位性を明示的に示しました。実世界の3つのシナリオ、すなわち、詩、音声言語、音楽の生成において、SeqGANは創造的なシーケンスの生成に優れた性能を示しました。また、SeqGANを学習する際のロバスト性と安定性を調べるために、一連の実験を行いました。今後の課題として、大規模データや長期計画の場合の行動決定を改善するために、モンテカルロ木探索とバリューネットワーク（Silver et al.2016）を構築する予定です。

Sequence Generative Adversarial Nets

シーケンス生成問題は次のように示される。現実世界の構造化シーケンスのデータセットが与えられたとき、シーケンスY1:T = (y1, ... , yt, ... , yT ), yt∈Y（Yは候補トークンの語彙）を生成するように、θパラメータ化された生成モデルGθを学習する。我々はこの問題を強化学習に基づいて解釈する。タイムステップtにおいて、状態sは現在生成されているトークン(y1, ... , yt-1)であり、アクションaは次に選択するトークンytである。したがって、政策モデルGθ(yt|Y1:t-1)は確率的であるが、行動が選択された後の状態遷移は決定論的である。すなわち、現在の状態s = Y_{1:t-1}で行動a = ytの場合、次の状態s' = Y{1:t}ではδ^a{s,s'} = 1、それ以外の次の状態s''ではδ^a{s,s''} = 0となる。

さらに、生成器Gθを改善するための指針となるφパラメータ化された識別モデルDφ（Goodfellow and others 2014）も学習します。 Dφ(Y{1:T})は、ある配列Y_{1:T}が実際の配列データからどれだけの可能性があるかどうかを示す確率である。図1に示すように、識別モデルDφは、実シーケンスデータからの正例と、生成モデルGθから生成された合成シーケンスからの負例を与えて学習される。同時に、生成モデルGθは、識別モデルDφから受け取った最終報酬の期待値に基づいて、政策勾配とMC探索を採用して更新される。報酬は、識別モデルDφを騙す可能性によって推定される。具体的な定式化は次のサブセクションで与える。

スクリーンショット 2021-10-25 16 56 42

Policy GradientによるSeqGAN

(Sutton et al. 1999)に従い、中間報酬がない場合、生成モデル(policy) G_θ(yt| Y{1:t-1})の目的は、開始状態s_0からシーケンスを生成し、その期待最終報酬を最大化することである

ここで、RTは完全なシーケンスに対する報酬である。なお、報酬は後述する識別器Dφからのものである。 Q^{Gθ}{Dφ} (s, a)は、シーケンスの行動価値関数、すなわち、状態sから出発して行動aをとり、その後ポリシーGθに従うことで得られる期待される累積報酬である。シーケンスの目的関数の合理性は、与えられた初期状態から出発して、識別者にそれが実在すると思わせるようなシーケンスを生成することが生成者の目標であるということです。次に問題となるのは、行動価値関数をどのように推定するかである。本論文では，REINFORCEアルゴリズム(Williams 1992)を用い，識別器Dφ(Y n 1:T )が本物であると推定する確率を報酬と考える．形式的には次のようになります。

しかし、識別器は、完成したシーケンスに対する報酬値を提供するだけです。実際には長期的な報酬を気にしているので、すべてのタイムステップにおいて、以前のトークン（プレフィックス）の適合性だけでなく、結果として得られる将来の結果も考慮する必要があります。これは、囲碁やチェスなどのゲームで、プレイヤーが長期的な勝利のために目先の利益をあきらめることがあるのと似ています（Silver et al.2016）。そこで、中間状態の行動価値を評価するために、未知の最後のT - t個のトークンをサンプリングするロールアウトポリシーGβを用いて、モンテカルロ探索を適用する。 N時間のモンテカルロ探索を次のように表します。

ここで、Y^n{1:t} = (y1, ... , yt)、Y^n{t+1:T}は、ロールアウトポリシーG_βと現在の状態に基づいてサンプリングされます。我々の実験では、G_βは発電機と同じに設定されていますが、速度を優先する場合は簡略化したものを使用することもできます（Silver et al.2016）。分散を減らし、アクション値のより正確な評価を得るために、現在の状態からシーケンスの最後までのロールアウトポリシーをN回実行し、出力サンプルのバッチを得る。したがって、次のようになります。

ここで、中間報酬がないときは、状態s' = Y1:tから始まる次の状態の値として繰り返し定義され、最後まで転がり出る関数であることがわかります。識別器Dφを報酬関数として使用することの利点は、生成モデルを反復的にさらに改善するために動的に更新できることです。より現実的な生成シーケンスのセットを手に入れたら、次のように識別器モデルを再トレーニングすることにする。

新しい識別器モデルが得られたときには、その都度、生成器を更新する準備をします。提案されたポリシーベースの方法は、長期的な報酬を直接最大化するために、パラメトリックなポリシーを最適化することに依存しています。 (Sutton et al. 1999)に従い、目的関数J(θ)の勾配は、生成器のパラメータθに応じて次のように導かれる。

上記の形式は、決定論的な状態遷移とゼロの中間報酬によるものです。詳細な導出は付録にあります。尤度比(Glynn 1990; Sutton et al. 1999)を用いて、式(6)の不偏推定を構築します(1つのエピソードについて)

ここで、Y1:t-1はGθからサンプリングされた観測中間状態である。期待値E[-]はサンプリング法で近似できるので、次にジェネレータのパラメータを次のように更新します。

ここで、α_h∈R^＋は、h番目のステップにおける対応する学習率を示す。また、AdamやRMSpropのような高度な勾配アルゴリズムもここでは採用できる。

要約すると、アルゴリズム1は、提案するSeqGANの全詳細を示している。学習の最初に，最尤推定（MLE）を用いて，Gθを学習セットSで事前学習する．前訓練された識別器からの監視信号は、生成器を効率的に調整するのに役立つ情報であることがわかりました。事前学習の後，生成器と識別器は交互に学習されます．生成器がg-steps更新のトレーニングによって進歩すると、識別器は生成器と同じペースを保つために定期的に再トレーニングする必要がある。識別器を学習する際、正の例は与えられたデータセットSから、負の例は我々の生成器から生成される。バランスを保つために、各d-ステップで生成する負の例の数は正の例と同じである。また，推定のばらつきを抑えるために，正例と負例を組み合わせた異なるセットを使用するが，これはブートストラップ法に似ている(Quinlan 1996)．

シーケンスの生成モデル

生成モデルとして、リカレント・ニューラル・ネットワーク（RNN）（Hochreiter and Schmidhuber 1997）を用いる。 RNNは、シーケンスの入力埋め込み表現x1, ... ... , xTを一連の隠れた状態h1, ... ... , hTにマッピングする。更新関数gを用いて再帰的に

さらに、ソフトマックス出力層zは、隠れた状態を出力トークン分布にマッピングします。

ここで、パラメータは、バイアスベクトルcと重み行列Vです。時間経過によるバックプロパゲーションの一般的な消失および爆発的な勾配問題（Goodfellow, Bengio, and Courville 2016）に対処するために、長短期記憶（LSTM）セル（Hochreiter and Schmidhuber 1997）を活用して、式（9）の更新関数gを実装する。なお、Gated recurrent unit (GRU) (Cho et al. 2014) やsoft attention mechanism (Bahdanau, Cho, and Bengio 2014) などのRNNの亜種のほとんどが、SeqGANの生成器として使用できることは注目に値する。

シーケンスの識別モデル

深層ニューラルネットワーク（DNN）（Vesely et al.2013）、畳み込みニューラルネットワーク`（CNN）（Kim 2014）、リカレント畳み込みニューラルネットワーク（RCNN）（Lai et al.2015）などの深層識別モデルは、複雑なシーケンス分類タスクにおいて高い性能を示している。本稿では、CNNが最近、テキスト（トークン列）分類に大きな有効性を示していることから、識別器としてCNNを選択する（Zhang and LeCun 2015）。ほとんどの識別モデルは、未完成のものではなく、シーケンス全体に対してのみ良好な分類を行うことができる。本論文では、識別器が完成したシーケンスが実在する確率を予測する状況にも注目する。まず、入力シーケンスx1, ... ... , xTを以下のように表現する。, xT を次のように表す。

ここで，xt ∈R^kはk次元のトークンエンベッディングであり，⊕は行列E{1:T} ∈R^{T×k}を構築するための連結演算子である。次に、カーネルw ∈R^{l×k}は、l個の単語のウィンドウサイズに畳み込み演算を適用して、新しい特徴マップを生成する

ここで、⊗演算子は要素ごとの生産の総和、bはバイアス項、ρは非線形関数です。異なる特徴を抽出するために、異なる窓サイズで様々な数のカーネルを使用することができます。最後に、特徴量マップc〜 = max {c1, ... ... , cT_{-l+1} }に対して、最大時間プーリング操作を行う。また、パフォーマンスを向上させるために、プールされた特徴マップに基づいて、ハイウェイ・アーキテクチャ（Srivastava, Greff, and Schmidhuber 2015）を追加します。最後に，シグモイド活性化による完全連結層を用いて，入力配列が実在する確率を出力する．最適化の目標は，式（5）で定式化されるように，グランドトゥルースラベルと予測される確率の間のクロスエントロピーを最小化することである．生成モデルと識別モデルの詳細な実装方法については，付録に記載しています．

合成データ実験

SeqGANの有効性を検証し，理解を深めるために，合成データを用いた模擬実験を行った2．実世界の構造化されたシーケンスをシミュレートするために，トークンの依存性を捉えるための言語モデルを検討する．ランダムに初期化されたLSTMを真のモデル（別名：オラクル）として用い、以下の実験では実データの分布p(xt|x1, ... , xt-1)を生成します。

評価指標

このようなオラクルを持つことの利点は、第一に訓練データセットを提供すること、第二に実データでは不可能な生成モデルの正確な性能を評価することである。 MLEは、真のデータ分布pと近似値qの間のクロスエントロピーを最小化しようとしていることがわかっている、すなわち、-E{x∼p} log q(x)。しかし、生成モデルを最も正確に評価する方法は、そこからいくつかのサンプルを抽出し、人間の観察者が事前の知識に基づいてレビューすることです。ここでは、人間観察者が自然分布p{human}(x)の正確なモデルを学習したと仮定する。そうすると、チューリングテストに合格する確率を上げるためには、実は正反対の平均負の対数尤度-E{x∼q }log p{human}(x)を最小化する必要があり(Huszar 2015)、pとqの役割が交換されます。我々の合成データ実験では、オラクルは実世界の問題に対する人間の観察者であると考えることができるので、完璧な評価指標は次のようになるはずです。

ここで、G_θとG_oracleはそれぞれ我々の生成モデルとオラクルを示す。テスト段階では、G_θを用いて10万個の配列サンプルを生成し、G_oracleによる各サンプルのNLL_oracleとその平均スコアを算出します。また、ベースラインとSeqGANの生成性能の統計的特性を比較するために有意差検定を行う。

学習設定

合成データ実験を行うために、まず、実データの分布 Goracle(xt|x1, ... , xt-1) を記述するオラクルとして、正規分布N (0, 1)に従うLSTMネットワークのパラメータを初期化する。そして、それを用いて長さ20の配列を1万個生成し、生成モデルの学習セットSとします。 SeqGANアルゴリズムでは、識別器の学習セットは、生成された例にラベル0を、Sからのインスタンスにラベル1を付けて構成されます。タスクによって、畳み込み層の構造を変える必要があるが、我々の合成データ実験では、カーネルサイズは1からT、各カーネルサイズの数は100から200^3である。ドロップアウト（Srivastava et al.2014）とL2正則化を用いて、オーバーフィッティングを回避しています。

4つの生成モデルをSeqGANと比較する。 1つ目のモデルは，ランダムなトークン生成です． 2つ目はMLEで学習したLSTM G_θです。 3つ目はスケジュールされたサンプリング（Bengio et al.2015）。 4つ目は、PG-BLEU（Policy Gradient with BLEU）です。

スケジュールされたサンプリングでは，学習プロセスは，以前の真のトークンをLSTMに供給する完全にガイドされたスキームから，主に生成されたトークンをLSTMに供給するガイドされていないスキームへと徐々に変化する．カリキュラムレートωは、真のトークンを生成されたものと置き換える確率を制御するために使用されます。安定した性能を得るために、学習エポックごとにωを0.002ずつ減少させます。 PG-BLEUアルゴリズムでは、生成された配列と参照データ（学習データ）との類似性を測る指標であるBLEUを用いて、モンテカルロ探索から得られた完成品のサンプルを採点します。

結果

比較したポリシーからシーケンスを生成した際のNLLoracleのパフォーマンスを表1に示します。この評価指標は基本的に有益であるため、他のベースラインを大幅に上回るSeqGANの影響を見ることができます。比較されたモデルから生成されたシーケンスのNLLoracleスコア分布に関する有意性T検定も行われ、比較されたすべてのモデルに対してSeqGANが大幅に改善していることが示されている。図4に示す学習曲線は、SeqGANの優位性を明示的に示している。約150回の学習エポックの後、最尤推定法とスケジュールサンプリング法の両方が比較的高いNLLoracleスコアに収束するのに対し、SeqGANはベースラインと同じ構造を持つ生成器の限界値を大幅に改善できる。これは、離散配列生成モデルに敵対的学習戦略を適用して、MLEの限界を打破できるという見通しを示している。さらに、SeqGANはPG-BLEUよりも優れている。これは、GANにおける識別信号が、配列データの基本的な分布を捉えるための生成方針を導くために、あらかじめ定義されたスコア（BLEUなど）よりも、より一般的で効果的であることを意味する。

考察

我々の合成データ実験では、SeqGANの安定性は学習戦略に依存することがわかった。具体的には、アルゴリズム1のg-steps、d-steps、kパラメータが、SeqGANの収束性と性能に大きな影響を与える。図3は、これらのパラメータの効果を示しています。図3(a)では、g-stepsがd-stepsやエポック数kよりもはるかに大きく、識別器を更新するまで何度も生成器を訓練することになります。この方法では、収束は早いのですが、生成器の改善が早いため、識別器が完全には訓練されず、次第に誤解を招くような信号を提供してしまうことになります。図3(b)では、識別器の学習エポックを増やすことで、不安定な学習プロセスが緩和されています。図3(c)では、1エポック分だけ生成器を学習し、識別器が騙される前に、より現実的な否定例に基づいてすぐに更新しています。このような場合、SeqGANは安定して学習します。これは、与えられたデータセットと同じ数の負例を1セットだけ生成し、それを使って様々なkエポックで識別器を学習することを意味します。しかし、実際には、識別器を改良するために、潜在的に無制限の数の負の例を利用することができます。このトリックは、固定の正例と異なる負例を組み合わせて複数の学習セットを得る、ブートストラップの一種と考えることができます。図3(d)は、このトリックが、識別器がより多くのネガティブな例を見せられ、その度にポジティブな例が強調されるため、安定性良く全体のパフォーマンスを向上させることができることを示しています。これは、トレーニング・ジェネレータのより包括的なガイダンスにつながります。これは(Goodfellow and others 2014)の定理と一致しています。生成的逆問題ネットの収束を分析するとき、重要な仮定は、識別器がGを与えられてその最適に達することが許されるということです。識別器が実データと不自然なデータを一貫して区別することができて初めて、そこからの教師付き信号は意味を持ち、逆問題トレーニングプロセス全体が安定して効果的なものになります。

実世界のシナリオ

これまでの実験を補完するために、詩の作成、音声言語の生成、音楽の生成といった実世界のタスクでもSeqGANをテストする。

テキスト生成

テキスト生成では、提案するSeqGANを用いて、漢詩とバラク・オバマの政治演説を生成した。詩の作成には、16,394個の中国語の詩が含まれるコーパス4を使用します。完全に自動化されたソリューションに焦点を当て、一般的になるように、特定の音韻規則など、漢詩の特別な構造規則に関する事前の知識は一切使用しませんでした。オバマ大統領の政治演説生成タスクでは，オバマ大統領の政治演説から11,092段落を抽出したコーパス5を使用した．また，生成されたテキストと人間が作成したテキストの類似度を測る評価指標として，BLEUスコアを用いた． BLEUは、もともと機械翻訳の品質を自動的に判定するために考案されたものです(Papineni et al. 2002)。機械が作成した結果と人間が提供した参考文献との類似度を比較することがポイントとなる．具体的には，詩の評価では，古典漢詩の単語（係り受け）のほとんどが1文字または2文字で構成されていることから，n-gramを2（BLEU-2）とし（Yi, Li, and Sun 2016），同様の理由で，小浜市の音声生成性能の評価にはBLEU-3とBLEU-4を用いています。我々の研究では、前の行から次の行の参考文献を探すのではなく、テストセット全体を参考文献として使用しています（He, Zhou, and Jiang 2012）。その理由は、生成タスクでは、いくつかの肯定的な例を提供するだけで、モデルがそれらのパターンをキャッチして新しい例を生成するようにしているからです。

BLEUに加えて、詩の生成も人間の判断が必要なケースとして選択しました。詩は創造的なテキスト構築であり、人間による評価が理想的だからです。具体的には、実際の詩20篇と、SeqGANとMLEで生成した各20篇を混ぜ合わせます。そして、漢詩の専門家70人に、60個の詩が人間と機械のどちらで作られたものかを判定してもらいます。最後に、各アルゴリズムの平均スコアを算出する。

実験結果を表2と表3に示すが、ここから、テキスト生成において、SeqGANがMLEよりも大幅に有利であることがわかる。特に、詩の作成では、SeqGANは実際の人間のデータと同等の性能を発揮している。音楽の生成音楽の生成には、Nottingham6データセットを学習データとして使用している。各楽曲のソロトラックを学習します。ここでは、88個の数字を使って88個の音程を表現していますが、これはピアノの88個の鍵盤に対応しています。ピッチを0.4s7ごとにサンプリングすることで，MIDIファイルを1から88までの長さ32の数字列に変換する．ピアノの鍵盤パターンの適合性をモデル化するために，評価指標としてBLEUを用いた．また，連続した音程データパターンの適合性をモデル化するために，平均二乗誤差（MSE）（Manaris et al.2007）を評価指標として用いた．表4から、音楽生成タスクにおいて、SeqGANはどちらの評価指標でもMLEを大きく上回ることがわかる。

e4exp / paper_manager_abstract