Open ymym3412 opened 6 years ago
Actor-Criticを使った強化学習で生成型要約を行う 要約文の質を上げるために、Criticの1つとして文がモデルによって生成された文か人間の文かを2値分類するモデルを使うのが特徴 これにより生成される文にOOVや###.#といったのノイズが入りにくくなる
https://arxiv.org/abs/1803.11070
Piji Li† Lidong Bing‡ Wai Lam†
†Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong ‡AI Lab, Tencent Inc., Shenzhen, China
2018/03/28
Actorはseq2seq+attn、CriticとしてActorの生成した文の対数尤度を測るCritic Iと、文がモデルによって生成された文か人間の文かを2値分類するCritic II(global summary quality estimator)の2つを用いる。 global summary quality estimatorが人間の書いた文に近いか判定することにより、生成される文にUNKや###.#といったのノイズが入りにくいという特徴がある。 また学習時の工夫として、Critic IIのパラメータアップデートを数イテレーションごとにしか行わないといったことをしている。
やり方としてはGANに近いように思える。 Critic IIのパラメータアップデート頻度を下げるのは、GANで言うところのDiscriminatorが強くなりすぎないようにする策に近いのか?
強化学習でパラメーターアップデートの頻度を下げるのは、Deep Q-Networkで導入されたFixed Target Q-Networkと同じ考えですね。詳細はこちらご参考ください。
ゼロからDeepまで学ぶ強化学習|Fixed Target Q-Network
強化学習で使われている考えだったのですね!ありがとうございます!
一言でいうと
Actor-Criticを使った強化学習で生成型要約を行う 要約文の質を上げるために、Criticの1つとして文がモデルによって生成された文か人間の文かを2値分類するモデルを使うのが特徴 これにより生成される文にOOVや###.#といったのノイズが入りにくくなる
論文リンク
https://arxiv.org/abs/1803.11070
著者/所属機関
Piji Li† Lidong Bing‡ Wai Lam†
†Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong ‡AI Lab, Tencent Inc., Shenzhen, China
投稿日付(yyyy/MM/dd)
2018/03/28
概要
新規性・差分
手法
Actorはseq2seq+attn、CriticとしてActorの生成した文の対数尤度を測るCritic Iと、文がモデルによって生成された文か人間の文かを2値分類するCritic II(global summary quality estimator)の2つを用いる。 global summary quality estimatorが人間の書いた文に近いか判定することにより、生成される文にUNKや###.#といったのノイズが入りにくいという特徴がある。 また学習時の工夫として、Critic IIのパラメータアップデートを数イテレーションごとにしか行わないといったことをしている。
結果
コメント
やり方としてはGANに近いように思える。 Critic IIのパラメータアップデート頻度を下げるのは、GANで言うところのDiscriminatorが強くなりすぎないようにする策に近いのか?