Adversarial Text Generation Without Reinforcement Learning

e4exp commented 3 years ago

https://arxiv.org/abs/1810.06640
2018

Generative Adversarial Networks（GAN）は、近年、コンピュータビジョンをはじめとする様々なタスクで競争力のある性能を発揮し、人気を博している。しかし、GANの学習は、自然言語処理ではあまり成功していません。これは、テキストのシーケンスが離散的であるため、勾配が識別器から生成器に伝わらないことが主な理由です。最近の解決策は、強化学習を用いて生成器に近似勾配を伝搬させるが、これは学習効率が悪い。そこで、オートエンコーダーを用いて、文の低次元表現を学習することを提案する。次に、GANはこの空間に独自のベクトルを生成するように学習され、現実的な発話にデコードされる。この生成器からのランダムなサンプルと補間されたサンプルの両方を報告する。文章のベクトルを視覚化することで、このモデルがオートエンコーダーの潜在空間を正しく学習していることがわかります。人間の評価とBLEUスコアは、競合するベースラインに対して、我々のモデルが現実的なテキストを生成することを示している。

e4exp commented 3 years ago

1 はじめに

過去数年にわたり、深層学習モデルは、機械翻訳（Johnson et al., 2016）から対話エージェント（Serban et al., 2016）、要約（Rush et al., 2015）、質問応答（Weissenborn et al., 2017）まで、言語生成を必要とする多くのタスクで大きな性能向上を実現してきました。最近の2018年の調査論文（Gatt and Krahmer, 2018）では、現在の最先端の手法を紹介する4つの章のうち3つの章で、自然言語生成（NLG）に対するニューラルアプローチの議論が含まれています。確率的ニューラル言語モデル（NLM）は重要な例の一つである。 NLMは、学習した単語表現から配列確率を予測することで、古くから言語生成に利用されてきました(Bengio et al., 2001)。これらのモデルは、各時間ステップにおける語彙の分布を出力し、それをサンプリングして次の時間ステップの入力とすることで、入力を条件とせずにテキストを生成する。最近では、文の生成に変分オートエンコーダ（VAE）が用いられている（Bowman et al.2015）。 VAEモデルは、空間を平滑化するために、エンコーダの潜在的な出力に事前分布を強制する。そして、この空間内で選択されたランダムな点は、有効な文にデコードされる。しかし，潜在空間は必ずしも一様ではなく(Makhzani et al., 2015)，生成された例は入力特徴を条件とすることはできない．最近、画像生成の手法として、Generative Adversarial Networksが提案された(Goodfellow et al., 2014)。 GANはコンピュータビジョンで大きな成功を収めており、画像キャプション（Zhang et al., 2017a）から画像超解像（Ledig et al., 2016）まで様々なタスクに適用されている。興味深いことに、GANは現実的なデータを生成するのに非常に有望であるが、テキストに適用するのは非常に困難であることが判明している。主な理由は、テキストが離散的であるため、勾配が識別器から生成器に伝わらないことである

この障害を克服し、GANをテキスト生成に活用する方法を開発することが、本論文の焦点である。 RNNのような自己回帰モデルは、各時間ステップで語彙上の生成された分布からサンプリングすることで、一度に1トークンずつシーケンスを生成します。このサンプリングは、モデルの最終層で行われます。しかし、最終層でバリエーションを導入することは、より高レベルの文の計画を妨げる可能性がある（Serban et al.2017）。これに対し、GANは入力層から変動を挿入することで、モデルがトップダウンで生成することを促します。これは、GANをNLGに長期的に適用するための1つの動機である。さらに、GANのAdversarialトレーニングは、単語レベルではなく、シーケンスレベルで行われる。これにより、テキストの一貫性が高まる可能性があります。テキストは離散的であるため、学習中に識別器から生成器に勾配を渡すことができないため、標準的な最適化を用いてGANを直接テキスト生成のために訓練することは、現在のところ不可能である。生成器の離散的なテキスト出力に関わる最適化の困難さを克服するために、Yu et al. (2017) は政策勾配を生成器に直接適用することで強化学習を利用している。 Zhangら（2017b）は、畳み込みネットワーク識別器を用いたsoft-argmax近似を用いて生成器への政策勾配を平滑化し、収束を早めるために文のパーミュテーションで識別器を事前学習する。 Li et al. (2017) は、部分的にデコードされた配列のみをスコアリングする識別器を訓練しています。リカレントニューラルネットワークを用いた配列予測の不安定さを軽減するために、Lambら（2016）は、学習時と予測時に類似したシステムの動作を促すために、敵対的なネットワークを用いている。その作品では、敵対的モデルはRNNデコーダの学習正則化として機能するが、予測時には使用されない。本研究では、強化学習を必要としない文生成のためのGenerative Adversarial Networkモデルを提案する。テキストの離散的な性質を克服するために、オートエンコーダー（AE）を利用して、文を滑らかな文表現にエンコードする。次に、学習された潜在空間に独自の文表現を生成するために、生成器ネットワークが学習される。生成器が生成した各文のベクトルは，AEのデコーダに渡され，最も近い文に復号される．本システムを複数のベースラインと比較して評価したところ，生成された文は，人間と自動の両方の手法に対して高いスコアを示した．

e4exp commented 3 years ago

2 LaTextGAN for Sequence Generation

離散的な配列を生成する目的で、LaTextGAN（latent-space GAN for text）を導入する。本論文では、LaTextGANの構築と、英語の文の無条件生成への応用に特に焦点を当てている。図1は、我々が提案するモデルの図である。我々は、テキストの高密度な低次元表現を学習するオートエンコーダーコンポーネントを利用する。生成器ネットワークは、この潜在変数空間の追加ポイントを生成するために利用され、有効な文にデコードされます。生成逆説ネットワークの典型的な例として、潜在的な表現から実文と生成文を分類するために、識別器ネットワークが学習されます。生成器は、より現実的な文の表現を生成することで、識別器を欺こうとします。

2.1 テキストオートエンコーダー

オートエンコーダーは、エンコーダーネットワークを用いて各文の情報を有限のベクトルに圧縮することで、テキストの低次元表現を学習するように設計されている。デコーダネットワークは、そのベクトルから入力表現を再構築することが任務である。エンコーダーとデコーダーの両方にLSTM（Long-Short Term Memory）ネットワークを利用している（Hochreiter and Schmidhuber, 1997）。

LSTMネットワークは、各文を一度に1単語ずつ順に読み取る。文の再構成の際、デコーダはエンコーダの潜在表現と前回の隠れた状態を入力とし、確率分布を生成して、その時間ステップでの単語の選択に使用する。我々のオートエンコーダーでは、貪欲なサンプリングを使用し、各タイムステップで最も高い確率の単語を選択する。

2.2 GANアーキテクチャの概要

生成器と識別器の両方を、標準的な完全結合ネットワークでモデル化するのは自然なことのように思える。しかし，ランダムに初期化された完全連結層は，層の深さが増すにつれて学習が困難になることが知られている．そこで，生成器と識別器をそれぞれ ResNet で表現することにしました（He et al.，2016）。

2.3 学習手順

学習品質を向上させるために、Gulrajani et al. (2017)のImproved Wasserstein GANネットワークを採用しました。

を、識別器（批評家）fwと生成器gθに対して行う。また、Gulrajaniら（2017）は、この学習目的を大規模なResNetアーキテクチャに適用し、このタスクへの適用性を再確認しています。

e4exp commented 3 years ago

e4exp / paper_manager_abstract