Neural Language Generation: Formulation, Methods, and Evaluation

https://arxiv.org/abs/2007.15780
2021

ニューラルネットワークをベースとした生成モデリングの最近の進歩により、人間とシームレスに会話ができ、自然言語を理解できるコンピュータシステムへの期待が再び高まっています。ニューラル・アーキテクチャは、ユーザーのニーズを満たす様々なコンテキストやタスクにおいて、テキストの抜粋を生成するために採用され、様々な成功を収めています。特に、大規模なデータセットで学習された大容量の深層学習モデルは、明示的な監視信号がない場合でもデータのパターンを学習する比類ない能力を示し、現実的で首尾一貫したテキストの生成に関して多くの新しい可能性を開いています。自然言語生成の分野は急速に発展していますが、まだ多くの未解決の課題があります。この調査では、自然言語生成の問題を正式に定義し、分類します。自然言語の生成が実用的に重要である場合、これらの一般的な定式化のインスタンスである特定のアプリケーションタスクをレビューします。次に、多様なテキストを生成するために採用されている手法と神経アーキテクチャの概要を示します。しかし、これらの生成モデルによって生成されたテキストの品質を評価する標準的な方法は存在せず、この分野の発展にとって重大なボトルネックとなっています。そこで，本稿では，自然言語生成システムを評価するための現在のアプローチを紹介します。この調査が、ニューラル自然言語生成の定式化、手法、および評価に関する有益な概要を提供することを期待しています。

1 はじめに

近年、深層生成モデリングと表現学習の成功により、自然言語生成（NLG）が大きく進歩しました。その背景には、言語を理解し、そこから意味を導き出す必要性が高まっていることがあります。テキスト生成の研究分野は、自然言語処理の基本であり、人間が書いたテキストと見分けがつかないような、現実的でもっともらしいテキストコンテンツを生成することを目的としています(Turing , 1950)。大まかに言えば、ある文脈の中で、構文的にも意味的にも正しい連続した単語の並びを予測するという目的は、まず、与えられたコーパスから文の分布を推定し、次に、学習された分布から新規の現実的に見える文をサンプリングするという2つのステップで達成される。理想的には、生成された文は、実世界の文の意味的および構文的な特性を保持し、モデルの推定に使用された学習例とは異なるものである（Zhang et al, 2017b）。

言語生成は本質的に複雑なタスクであり、構文、意味論、形態学、音韻論、語用論など、複数のレベルでかなりの言語知識とドメイン知識を必要とします。さらに、テキストは、意思決定の支援、コンテンツの要約、言語間の翻訳、人間との会話、特定のテキストをより利用しやすくする、さらにはユーザーを楽しませたり、行動を変えるように促したりするなど、コミュニケーション上の目標を達成するために生成される（Reiter, 2019）。そのため、生成されたテキストは、コンテンツや使用されている用語の適切さ（Paris , 2015）のほか、公平性や透明性の理由から、特定の利用者に合わせて調整する必要があります（Mayfield et al.2019）。長い間、自然言語生成モデルは、ルールベースであったり、疎な高次元の特徴で浅いモデルを学習することに依存していました。近年、ニューラルネットワークが復活し、密なベクトル表現で訓練されたニューラルネットワークベースのテキスト生成モデルは、比類のない事前性能を確立し、機械が言語を理解して人間とシームレスに会話できるようになることへの期待が再燃している。確かに、意味のある一貫したテキストを生成することは、多くの自然言語処理タスクにとって極めて重要である。しかし、まとまったテキストを生成し、長期的な依存関係をモデル化できるニューラルネットワークを設計することは、テキストデータが離散的な性質を持つことから、自然言語生成における長年の課題でした。また、ニューラルネットワークモデルは、データ中の浅いパターンを拾うだけではなく、言語を理解し、テキストの概念を理解する能力もまだ限られています。最後に、自然言語の生成モデルの評価は、この分野の進歩を推進する上で重要な意味を持つ、同様に活発で挑戦的な研究分野です。

この作品では、特定の文脈におけるニューラルテキスト生成の問題を正式に定義し、セクション2でテキスト生成の多様な実用的アプリケーションを紹介します。セクション3では、ニューラルネットワークベースの自然言語生成のために文献で採用されている深層学習の方法論とニューラルモデルのアーキテクチャの包括的な概要を紹介する。セクション4では、生成されたテキストを評価するための方法をレビューする。最後に、セクション5では、ニューラルテキストの生成と評価に関する洞察と将来の展望を述べて締めくくります。この分野の研究が急速に進化していることを考えると，今回のサーベイが，これらのトピックについて知りたいと思っている人にとって，現在のニューラルネットワークに基づく自然言語生成と評価の完全な概観となり，最新の研究の進歩に関する最新の情報を読者に提供することができると期待しています。 (Gatt and Krahmer, 2018)のサーベイと比較して、私たちの概要は、新しい問題定義とタスクの定式化を中心に、ニューラルネットワークの手法と評価をより包括的かつ最新の状態でカバーしています。

2 問題の定義

以下では、新しいテキストを生成する際に考慮される文脈、条件、および制約に従って、自然言語生成問題を正式に定義する。ここでは、テキスト生成を以下の3つのカテゴリに分けて考える。

i) 2.1節で紹介した汎用またはフリーテキスト生成、 ii) 2.2節で紹介した条件付きテキスト生成、 iii) 2.3節で紹介した制約付きテキスト生成である。

それぞれのカテゴリーについて、前提条件に基づいてテキスト生成問題を定義し、カテゴリー間の違いを明らかにする。さらに、セクション2.4では、言語生成が実用的な機会を提供するアプリケーション分野の例を示します。

2.3 制約付きテキスト生成

制約付きテキスト生成の問題は、出力に存在することが望まれる特定の概念のセット（定義済みの名詞、動詞、実体、フレーズ、文の断片など）をカバーする、首尾一貫した論理的なテキストを生成すること、および/または、システムユーザーの特定の関心事を反映するユーザー定義のルールに従うことに焦点を当てている。 Lexically Constrained Text Generation（Hokamp and Liu, 2017）は、独立した属性制御に明示的な制約を置き、これらを微分可能な近似と組み合わせて離散的なテキストサンプルを生成する。文献では、条件付きテキスト生成、制御付きテキスト生成、制約付きテキスト生成の区別は明確に定義されておらず、これらの用語はしばしば互換的に使用されています。実際、制約付きテキストの生成を提案した最初の作品は、実際には制御された生成としてタスクを参照しています（Huら、2017）。以下では、制約付きテキスト生成の問題を正式に定義します。

n個の概念x = {c1, c2, ... ... , cn}∈Xが与えられたとしよう。ここで、Xはすべての概念の空間を表し、各ci∈C（Cは概念の語彙を表し、ciは名詞または動詞を表す）が与えられている。また、m個のルールy = {y1, y2, ... ... , ym}∈Yが与えられているとする。ここで、Rはすべてのルールの空間を表し、各yiは論理的な形式で表現されたテキスト生成制約である。我々は、制約付きテキスト生成を、概念および/または制約ルールのセットを生成された文にマッピングする構造化予測関数f : X∪Y → Z, X∪Y neq = φを学習することとして定式化する。したがって、制約付きテキスト生成手法は、生成された文に制約を課し、xに存在するすべての概念を含み、かつ/またはyで指定されたすべての制約を満たす文法的な文z∈Zの形で出力を生成する。マッチング関数fは、確率分布を操作し、どの程度まで制約が満たされているかを示す。文献上、制約文生成手法は以下のように分類されている。

ソフト制約付きテキスト生成（プライミング）：生成されたコンテンツに制約（トピックワードなど）の存在を厳密に強制することなく、生成された文章が与えられた制約に意味的に関連していることを要求するものである。マッチング関数fは、この場合、意味的な類似性のソフトな尺度となる。一般的には、まず、（キーワード、テキスト）のペアのコーパスを構築し、次に、条件付きテキスト生成モデルをトレーニングして、それらの共起性を捉え、制約されたキーワードを含むテキストを生成します。しかし、このアプローチは、生成中に希望するキーワードがすべて保存されることを保証するものではありません。特に、複数のキーワードを同時に含むことに制約がある場合には、いくつかのキーワードが失われ、生成された出力には見当たりません。

ハードコンストレイントテキスト生成：出力文に特定のキーワードを必須で含めることを指します。マッチング関数fは、この場合、二値の指標であり、与えられた制約を満たさない実現不可能な文章を生成する可能性を排除します。したがって、生成された出力にハード制約を置くことで、すべての語彙制約が生成された出力に存在しなければなりません。設計が容易なソフト制約モデルとは異なり、ハード制約テキスト生成の問題では、複雑な専用ニューラルネットワークアーキテクチャの設計が必要となります。

制約付きテキスト生成は、機械翻訳におけるドメイン内用語の組み込み（Post and Vilar, 2018）、対話システムにおける一般的で意味のない回答の回避（Mou et al., 2016）、画像キャプション生成におけるグランドトゥルーステキストフラグメント（意味属性、オブジェクトアノテーションなど）の組み込み（Anderson et al., 2017）など、多くのシナリオで有用である。制約付き自然言語の生成に用いられる代表的な属性は、テキスト要約における要約の時制と長さ（Fan et al., 2018a）、レビュー生成における生成コンテンツのセンチメント（Mueller et al., 2017）、テキスト簡略化における言語の複雑さ、またはテキストスタイル転送アプリケーションにおけるスタイルである。また、制約付きテキスト生成は、回答の汎用性や反復性など、対話用のニューラルテキスト生成モデルの限界を克服するために使用されています（See et al.、2019）、（Serban et al.、2016）。とはいえ、特定の語彙制約下でテキストを生成することは困難である(Zhang et al., 2020)。人間にとっては、常識的な推論能力を利用して、与えられた概念のセットをカバーしたり、事前に定義されたルールに従ったりする文章を生成することは簡単ですが、制約のあるテキスト生成タスクでの生成的な常識的な推論は、機械学習モデルにとってはそれほど単純ではありません（Lin et al.、2019）。

3.1 リカレントアーキテクチャ 3.1.1 Generic/Free-Text Generationのためのリカレントモデル

リカレントニューラルネットワーク(RNN) (Rumelhart et al., 1986), (Mikolov et al., 2010)は、逐次データの長期的な依存関係をモデル化することができ、言語モデリング(Mikolov, 2012)から音声認識(Graves et al., 2013)、機械翻訳(Kalchbrenner and Blunsom, 2013)まで、さまざまな自然言語処理タスクで有望な結果を示しています。 RNNの重要な特性は、可変長の入力シーケンスを固定次元のベクトル表現にマッピングする学習能力です。 RNNは、各タイムステップにおいて、入力を受け取り、隠れた状態を更新し、予測を行います。標準的なRNNは，入力配列x = (x1, x2, ... , xT ) が与えられると，隠れベクトル配列h = (h1, h2, ... , hT ) と出力ベクトル配列y = (y1, y2, ... , yT ) を計算します．ここで，各データポイントxt, ht, yt , ∀ t∈{1, ... ... , T} は，実数値のベクトルです．ここで，各データポイント xt , ht , yt , ∀ t∈{1, ... ... , T} は実数値のベクトルで，次のようになります。

式21において、Wは重み行列を表し、特にWxhは入力-隠れ重み行列、Whhは隠れ-隠れ重み行列である。 bはバイアスベクトルを表し、bhは隠れバイアスベクトル、byは出力バイアスベクトルを表します。 Hは，隠れ層の表現を計算する関数である． RNNのグラデーションは，時間をかけたバックプロパゲーションによって計算されます(Rumelhart et al., 1986)，(Werbos, 1989)．定義上、RNNは、各タイムステップにおける隠れた状態が、以前のすべてのタイムステップの関数として計算されることを考えると、本質的に時間に深いものです。理論的には、RNNは任意の長いシーケンスの情報を利用することができますが、実際には、勾配の消失や爆発(Bengio et al., 1994)により、前の数タイムステップを超えるコンテキストを考慮することができず、勾配降下法では標準的なRNNの長距離の時間構造を学習することができませんでした。

さらに，RNNベースのモデルには数百万のパラメータが含まれており，従来は学習が非常に困難であったため，広く使用することができませんでした(Sutskever et al., 2011)．ネットワークアーキテクチャ、最適化技術、および並列計算の改善により、リカレントモデルは大規模でより良い学習を行うようになりました(Lipton et al., 2015)

Long Short Term Memory (LSTM) (Hochreiter and Schmidhuber, 1997)ネットワークは、RNNの消失勾配による制限を克服し、勾配降下法による長期的な時間構造の学習を可能にするために導入された。 LSTMのアーキテクチャは、1つの隠れ層を持つ標準的なRNNのアーキテクチャによく似ていますが、各隠れ層のノードは、長い時間にわたって情報を記憶する固定重みの自己接続された再帰エッジを持つメモリセルを含むように変更されています。メモリセルctは、内部の隠れた状態htを持つノードと、各LSTMユニットの更新量を制御する入力ゲートit、前のメモリセルをどの程度忘れるかを制御する忘却ゲートft、内部のメモリ状態の公開を制御する出力ゲートotという一連のゲートで構成されています。タイムステップtにおけるLSTMの遷移式は次のとおりです。

式22において，xtは現在のタイムステップtにおける入力，σはロジスティックシグモイド関数，⊙は要素ごとの乗算を示す。 UとWは学習した重み行列です。 LSTMは、ベクトル要素ごとにゲーティング変数の値を調整することで、複数のタイムステップにわたる情報を表現することができるため、勾配が消滅したり爆発したりすることなく通過することができます。 RNNでもLSTMでも，データは完全に観測された有向グラフモデルによってモデル化されており，離散的な出力シーケンスy = (y1, y2, ... , yT )の分布は，トークンに対する条件付き分布の順序積に分解されます。

LSTMと同様に、Gated Recurrent Units (GRU) (Cho et al., 2014) は、自然言語の意味的および構文的に意味のある表現を学習し、情報の流れを調整するゲーティングユニットを備えています。 GRUは、LSTMとは異なり、独立したメモリセルを持たず、ゲートの数も少ないシンプルな設計となっています。タイムステップtでの活性化h j tは、前回のタイムステップh j-1 tでの活性化と候補の活性化eh j tの間で線形補間される。更新ゲートz j tは、現在のユニットがその内容をどれだけ更新するかを決定し、リセットゲートr j tは、以前に計算された状態を忘れることを可能にするものである。各タイムステップtにおけるGRUの更新式は以下の通りである。

リカレント接続を持つモデルは、教師の強制力を利用して学習します（Williams and Zipser, 1989）。これは、最大尤度基準から生まれた戦略で、リカレントモデルの予測値をグランドトゥルースのシーケンスに近づけるように設計されています。各学習ステップにおいて、モデルが生成したトークンyˆtは、グランドトゥルースに相当するトークンytに置き換えられますが、推論時には、各トークンはモデル自身によって生成されます（すなわち、以前に生成されたサンプルが与えられた場合、シーケンスに対する条件付き分布からサンプリングされます）。トレーニングステージと推論ステージの間の不一致は、露出バイアスにつながり、モデル予測のエラーが、生成されたシーケンスにわたって蓄積され、迅速に増幅されます（Lamb et al. 救済策として、Scheduled Sampling (Bengio et al., 2015) は、グランドトゥルースシーケンスからの入力と、トレーニング時にモデルが生成した入力とを混合し、カリキュラム学習に基づいて、完全なガイド付き（すなわち、真の前のトークンを使用する）から、ガイド付きでない（すなわち、主に生成されたトークンを使用する）まで、トレーニングプロセスを徐々に調整する（Bengio et al., 2009）。モデルがいくつかの連続したトークンを生成すると，モデルが生成した分布はグランドトゥルースの分布から乖離する可能性がありますが，その解決策としては， i) 自己生成したシーケンスを短くする， ii) 自己生成したサンプルとグランドトゥルースのサンプルを使い分ける確率を，何らかのスケジュールに従って0にする，などが考えられます．なお，スケジュールサンプリングを用いて学習したモデルでは，先行するシンボルの実際の接頭辞ではなく，シーケンス内の位置を条件としたシンボルの分布を記憶することが示されている(Husz´ar, 2015)．

3.1.3 Recurrent Models for Constrained Text Generation

Metropolis-Hastings sampling (Miao et al., 2019)は、リカレントニューラルネットワークに基づくモデルから、ソフトおよびハードの両方の制約文生成のために提案されている。この手法は、マルコフ連鎖モンテカルロ（MCMC）サンプリングに基づいており、文の中でランダムに選択された任意の単語に対して、文空間内で挿入、削除、置換などの局所的な操作を行います。科学論文のタイトル生成には、与えられたトピックワードを条件として、文中の前後の単語を生成するforwardbackward recurrent language modelを用いることで、ハードな制約が課せられている（Mou et al. トピックワードは文中の任意の位置に出現させることができますが、このアプローチでは、1つのキーワードに正確に制約された文しか生成できません。複数の制約は、バックワードフォワードLSTM言語モデルによって生成された文の中に組み込まれており、制約のあるトークンを埋め込み空間内の最も近いマッチする隣人と語彙的に置き換えることで実現されている(Latif et al., 2020)。特定の語彙を統合しつつ、指定されたトピックに向かって会話を誘導することは、談話レベルのルールとニューラルの次のキーワード予測を組み合わせることで達成される(Tang et al., 2019)。リカレントネットワークに基づくシーケンス分類器は、(Nallapati et al., 2017)において抽出的な要約に用いられる。ハードなリズム、韻、トピックの制約に従う詩の生成が提案されている(Ghazvininejad et al., 2016)

並列シーケンス生成。

テキスト生成における最近の研究では、テキストは逐次的に生成される必要があるという仮定に挑戦しています（Gu et al.、2017）。実際、逐次的なトークン生成という単純な手順は、人間がどのようにテキストを書くかを反映しておらず（Guu et al.2018）、コンテンツの多様性を制限している（Mehri and Sigal, 2018）。前のすべての単語を条件として各単語を予測し、ターゲットシーケンスの長さを自然にモデル化する標準的な自己回帰モデルとは対照的に、非自己回帰モデルは出力トークンの並列生成を可能にし、推論時にターゲットシーケンスの長さの予測を組み込む（Lee et al.2018）。並列でのシーケンス生成は、並列計算を活用することで推論を高速化し、シーケンスを反復的に改良することでトークン間の依存関係を把握する（Lee et al.2018）。

並列デコーディングモデルには、反復的な洗練（Lee et al., 2018）、ノイズの多い並列デコーディング（Gu et al., 2017）、マスクされた言語モデル（Ghazvininejad et al., 2019）、（Ghazvininejad et al., 2020）、挿入ベースの手法（Stern et al, 2019）、（Chan et al., 2019）、（Gu et al., 2019a）、編集ベースの手法（Gu et al., 2019b）、（Ruis et al., 2020）、正規化フローモデル（Ma et al., 2019b）、コネクショニスト時間的分類（Libovick`y and Helcl, 2018）などがあります。

非自動回帰生成モデルは、自動回帰モデルの性能に近づき、機械翻訳（Gu et al., 2017）、（Guo et al., 2019）、（Saharia et al., 2020）、音声合成（Oord et al., 2018）に適用することに成功している。それにもかかわらず、彼らは、出力トークンが入力を与えられた条件付き独立であるという限定的な仮定をしており、これは非非再帰的に生成されたシーケンスに冗長なトークンが存在することにつながる。さらに、文末トークンを発することで生成を停止する自動回帰モデルとは異なり、非自動回帰モデルは、予備的な生成ステップとして出力長の予測を明示的に組み込む必要がある。

3.4.2 条件付きテキスト生成のためのGANモデル

条件付きGAN（Mirza and Osindero, 2014）は、yに条件付けしたいデータ（例えば、クラスラベルや他のモダリティからの補助データ）を、生成器と識別器の両方に追加入力層として与えることで構築される。生成器Gでは、事前の入力ノイズpz(z)とyが隠れた共同表現の中で結合され、識別器Dでは、データxと条件付け情報yが識別関数の異なる入力として指定されます。条件付きGANの目的関数は次のように定式化される。

言語モデルに基づく識別器が、生成されたテキストの新規性に基づいて生成者に報酬を与えることで、多様なテキスト生成が促される（Xu et al, 2018a）。分類精度が飽和した場合に、新規性の相対的な度合いを区別できなくなる分類器ベースの識別器とは異なり、言語モデルのクロスエントロピーは飽和せず、反復的なテキストと新規性のある流暢なテキストを識別することができる。汎用的で情報量の少ない回答は、対話システムにおける一般的な問題です。多様で予測不可能な応答を伴う自然な会話を促すために、変量的相互情報目的が採用されている(Zhang et al., 2018c)。強化学習設定におけるオープンドメイン対話生成のためのAdversarial trainingは、対話の発話履歴を与えて次の応答を生成することが提案されている(Li et al., 2017a)。クレジット割り当て問題を軽減するために、部分的に復号化されたシーケンスの各アクション（単語）選択ステップに対する報酬は、モンテカルロ探索を使用するか、部分的な発話に報酬を提供する識別器を訓練することによって割り当てられますが、それにもかかわらず、そのような報酬の計算は時間がかかります。

MaskGAN（Fedus et al., 2018）は、Fill-inthe-blankアプローチをテキスト生成に採用し、文中の連続した単語ブロックをマスクし、アクター批判的な条件付きGANが、周囲の文脈を条件として欠落したテキストを埋める。条件付きGANは、画像(Dai et al.,2017)とビデオ(Yang et al.,2018a)のキャプションを生成するために使用されています。 AutoregressiveモデルとAdversarialモデルを組み合わせて、ニューラルアウトライン生成を行っている(Subramanian et al.,2018)。文レベルのBLEU強化目的のニューラル機械翻訳のための条件付きGANは(Yang et al., 2018c)で提案されている。画像からの詩の生成は、政策勾配による複数の識別器を用いた敵対的な学習フレームワークにおいて、結合された視覚-詩の埋め込みを抽出し、詩の生成のためにリカレントニューラルネットワークに与えることで達成される(Liu et al., 2018a)。

3.4.3 制約文生成のためのGANモデル

BFGAN（Liu et al., 2019a）は、語彙的に制約された文生成のために提案された最初のGANベースのモデルである。モデルのアーキテクチャは、前方生成器と後方生成器という2つの生成器と、それらの共同学習を導く識別器を採用しており、人間が書いた文章と機械が生成した語彙的制約のある文章を区別するように学習する。このモデルを用いて、Amazon製品のユーザーレビューや、語彙制約のある会話応答を生成しています。 GANベースの文体見出し生成は(Shu et al., 2018)で提案されている。

3.5.3 制約付きテキスト生成のためのVAEモデル

連続および離散の両方の潜在変数で動作する半教師付きVAEは、ラベル付きシーケンスの伝達に使用されます - 入力シーケンスとラベルのセットが与えられると、モデルは与えられたラベルの属性を反映して入力シーケンスを変更します（Zhou and Neubig, 2017）。

VAEは、モデルが意味構造の潜在的な表現を分離して学習するのに役立つ属性識別器で強化されています（Hu et al.2017）。さらに、これは、各属性が生成されたサンプルのたった1つの側面にのみ焦点を当てている潜在空間での解釈可能性を高めるのにも役立ちます。著者は、生成された文のセンチメントと時制を制御します。 VAEにおける暗黙的な潜在的特徴は、事後を事前分布に合わせるサンプルベースのアプローチに従って抽出される（Fang et al.2019）。 Topic guided variational autoencoder（Wang et al., 2019c）は、関心のある特定のトピックに関するテキスト生成に使用される。潜在コードに対して単純なガウス事前分布を指定するVAEとは異なり、このモデルでは事前分布をニューラルトピックモジュールによってパラメータ化されたガウス混合モデルとして指定する。センチメント修正、単語の置換、単語の順序付けなどのタスクのためのスタイル伝達は、コンテンツをテキストのスタイリスティックな特性から分離するVAEモデルを用いて実現される（Shen et al. この目的のために、VAEエンコーダは、文とその元のスタイル指標を入力として受け取り、それをスタイルに依存しないコンテンツ表現にマッピングし、この表現をスタイルに依存するデコーダに渡して生成します。スタイル移行のための分離した表現の学習は、(Balasubramanian et al., 2020)、(John et al., 2019)でも提案されている。パラフレーズ生成は、セマンティクスとシンタックスを捉えるように設計された2つの潜在変数を持つVAEモジュールを通じて行われる（Chen et al.2019b）、（Bao et al.

3.7.3 RL Models for Constrained Text Generation

非単調な制約付きテキスト生成は、文中の任意の位置にまずトークンが生成され、モデルが再帰的にその左右の単語の二分木を生成する模倣学習フレームワーク（オラクル生成ポリシーの動作を模倣する生成ポリシーの学習）の一部として組み立てられている(Welleck et al., 2019a)。テキスト要約のための階層型強化学習フレームワークでは、抽出的な文と抽象的な文が混在しており、copyor-rewrite機構により、文のコピーと文の書き換えを切り替えることができる（Xiao et al. 非差別化可能な評価指標（例えばROUGE）を最適化する政策勾配法は、文脈的バンディット設定での抽出的要約（Dong et al.2018）または文のランキング設定での抽出的要約（Narayan et al.2018）、および階層的設定での抽象的要約（Chen and Bansal, 2018）に用いられる。抽象的な要約のためのサリエンシーと論理的な関連性の報酬は、強化ベースの政策勾配によって同時に最適化される(Pasunuru and Bansal, 2018)。最尤を用いた標準的な教師付き単語予測と強化学習ポリシーグラジエントを組み合わせたハイブリッド学習目的が、抽象的な要約に用いられる(Paulus et al., 2018)、(Celikyilmaz et al., 2018)。要約生成における抽象度を向上させるために、ROUGEに基づく報酬を、政策勾配最適化目的において新規性のある要約内のユニークなn-gramの割合をカウントする新規性メトリックと組み合わせている(Kry´sci ´nski et al., 2018)。感情的な文章を生成するためのsentimentto-sentiment translationのタスクに対して、対になっていないデータを用いた循環型強化学習アプローチを提案する(Xu et al., 2018c)。

3.8.3 Transfer Learning Models for Constrained Text Generation

近年のTransformerベースの言語モデルの進歩により、強力な分布を学習し、高品質なサンプルを生成する生成モデルが登場しました。このような大規模な言語モデルは有望なテキスト生成機能を備えていますが、生成されたテキストのさまざまな側面をユーザが制御したり、生成された出力にユーザが定義したキーフレーズを含めることができることが望ましいです。外部の知識をニューラル会話モデルに統合することによるソフト制約付きテキスト生成は、会話の履歴と関連する外部テキストの抜粋を符号化し、その両方をTransformerベースの応答生成器に渡すことで実現される（Qin et al.2019b）。

Counterfactual story generationは、与えられた介在する反事実の出来事に制約された既存のストーリーに最小限の修正を行う。 OpenAI-GPT2 (Radford et al., 2019) 事前に訓練されたモデルを使用して、反実の推論によって物語を書き直し、課された制約と物語を一致させる（Qin et al. OpenAIGPT2 (Radford et al., 2019) は、与えられた長さに制約されたカバレッジと流暢性を最大化するように要約エージェントを訓練する強化学習の設定で、抽象的な要約にも使用されている(Laban et al., 2020)。指定された語彙制約の下でのハードコンストレイントなテキスト生成は、文が完成するまで既存のトークンの間に新しいトークンを再帰的に挿入するマスクされた言語モデリング目的（Devlin et al.、2018）を用いて実行される（Zhang et al.、2020）。文の生成は、まず高レベルの単語（名詞、動詞、形容詞）を生成し、それらを軸にしてより細かい粒度の詳細を繰り返し挿入し、最後に最も情報量の少ない単語（代名詞、前置詞）を追加することで、階層的に行われる。

e4exp / paper_manager_abstract

Neural Language Generation: Formulation, Methods, and Evaluation #480