[2020] Low-Resource Knowledge-Grounded Dialogue Generation

0. 論文

タイトル

Low-Resource Knowledge-Grounded Dialogue Generation

リンク

https://arxiv.org/abs/2002.10348

著者

Xueliang Zhao, Wei Wu, Chongyang Tao, Can Xu, Dongyan Zhao, Rui Yan

投稿日付

ICLR 2020

1. どんなもの？

知識を用いた対話システムを少ないデータリソースで効率よく学習するためのモデル・方法の提案。モデルのパラメータを通常の会話部分と知識による会話部分に分け、それぞれの部分で分けて事前学習を行い、disentangled された表現を decoder でうまく扱うことで効率化。 Wizard of Wikipedia, CMU Document Grounded Conversation の2つで実験し、既存モデルに対して 1/8 程度のデータ量で SoTA スコアを更新し、学習データとは異なるドメインに対しても少ないデータで適応できることを示した。

2. 先行研究と比べてどこがすごい？

少ない knowledge-grounded なデータリソースで知識を用いた対話モデルの学習を行う方法を提案した。
対話の表現・知識の表現をうまく disentangled する decoder を提案し、それぞれを別に pre-train することで知識を用いた対話の精度を上げる方法を提案した。

3. 技術や手法のキモはどこ？

次のようにコンポーネントを分けてモデルを作成。コンポーネント GRU + attn ベース, decoder は更に copy mechanism を入れたもの。
- encoder
  - encoding context: 会話履歴を GRU encode
  - encoding knowledge: 外部知識を BiGRU encode
- decoder
  - language model: 言語モデル
  - context processor: GRU + attention + copy mechanism
  - knowledge processor: GRU + 文レベルの attention + 単語レベル attention で copy
- decoder manager: 上記3つの出力から次の単語予測, gumbel softmax (必要か?)

スクリーンショット 2020-04-18 18 30 10

パラメータを分けつつ pre-training や training を行う
- コンポーネントごとのパラメータを分けて pre-training
  - context encoder, decoder, context processor を対話データ (Reddit) で学習
  - language model を対話データ (Reddit) のそれぞれの文を使って学習, この時 decoder のパラメータは fixed
  - knowledge encoder を知識データ (wikipedia) を使って学習
  - 残りのパラメータ (knowledge processor, decoding manager) は知識付きの対話データ (Wizard of Wikipedia, CMU_DoG)で学習, この時他の全てのパラメータは fixed

4. どうやって有効だと検証した？

Wizard of Wikipedia, CMU_DoG データセットを、比較に Tranformer Memory Network (Wizard of Wikipedia のベースライン) と Incremental Transformer with Deliberation Decoder (ITDD) を使用して実験。提案手法については low-resource での効果を見るために、データセットを full, 1/2, 1/4, 1/8, 1/16 にして学習を行った。

結果はわかりやすい形になっており、Training と同じドメインのデータ (Test Seen) については ITDD が最も良いスコアだが、Test Unseen (Wizard of Wikipedia は test データが Test Seen と Test Unseen に分かれている) については ITDD の性能は大きく落ちているのに対して、提案手法はほとんど Test Seen と変わらない、かつそんなに悪くないスコアになっている。

スクリーンショット 2020-04-18 19 43 50 スクリーンショット 2020-04-18 19 43 56

5. 議論はある？

次の疑問について論文内で提示・実験を行っている。

Q1: 各コンポーネントを pre-train したモデルに knowledge-grounded なデータで finetune するとき、pre-train 部分を fix する/しないどっちがいい?
- 実験したところ、データが多いときはしないほうが良いが、データが少ないと finetune 時のデータに overfitting したのでしないほうが良い。
Q2: Transformer Memory Network にも同様に knowledge を含まない対話データ (Reddit) で pre-train したらどうなる? ( knowledge encode と decoder のパラメータを finetune)
- 実験したところ、依然として提案手法の方が高いスコアだった。明示的にパラメータを disentangled したのが効いていると考えられる。
Q3: component それぞれに pre-train をしているが、どれが効いている?
- ablation study を実施して、全て効いていることを確認。

6. 次に読むべき論文は？

Wizard of Wikipedia: Knowledge-Powered Conversational Agents
- https://qiita.com/cfiken/items/97c87e6162fbd4a806bc
- ベースラインモデル (TMN) & データセット (Wizard of Wikipedia)
Incremental Transformer with Deliberation Decoder for Document Grounded Conversations
- https://github.com/nlp-survey-kb-response/nlp-survey-kb-response/issues/41
- ベースラインモデル ITDD
A Dataset for Document Grounded Conversations
- https://arxiv.org/abs/1809.07358
- データセット (CMU_DoG)

cfiken / paper-reading