arXivTimes / arXivTimes

repository to research & share the machine learning articles
https://arxivtimes.herokuapp.com/
MIT License
3.9k stars 201 forks source link

Actor-Critic based Training Framework for Abstractive Summarization #701

Open ymym3412 opened 6 years ago

ymym3412 commented 6 years ago

一言でいうと

Actor-Criticを使った強化学習で生成型要約を行う 要約文の質を上げるために、Criticの1つとして文がモデルによって生成された文か人間の文かを2値分類するモデルを使うのが特徴 これにより生成される文にOOVや###.#といったのノイズが入りにくくなる

論文リンク

https://arxiv.org/abs/1803.11070

著者/所属機関

Piji Li† Lidong Bing‡ Wai Lam†

†Department of Systems Engineering and Engineering Management, The Chinese University of Hong Kong ‡AI Lab, Tencent Inc., Shenzhen, China

投稿日付(yyyy/MM/dd)

2018/03/28

概要

新規性・差分

手法

Actorはseq2seq+attn、CriticとしてActorの生成した文の対数尤度を測るCritic Iと、文がモデルによって生成された文か人間の文かを2値分類するCritic II(global summary quality estimator)の2つを用いる。 global summary quality estimatorが人間の書いた文に近いか判定することにより、生成される文にUNKや###.#といったのノイズが入りにくいという特徴がある。 また学習時の工夫として、Critic IIのパラメータアップデートを数イテレーションごとにしか行わないといったことをしている。

結果

image

コメント

やり方としてはGANに近いように思える。 Critic IIのパラメータアップデート頻度を下げるのは、GANで言うところのDiscriminatorが強くなりすぎないようにする策に近いのか?

icoxfog417 commented 6 years ago

強化学習でパラメーターアップデートの頻度を下げるのは、Deep Q-Networkで導入されたFixed Target Q-Networkと同じ考えですね。詳細はこちらご参考ください。

ゼロからDeepまで学ぶ強化学習|Fixed Target Q-Network

ymym3412 commented 6 years ago

強化学習で使われている考えだったのですね!ありがとうございます!