Open cfiken opened 4 years ago
モデルも結果も面白いし良いので使ってみたい。が、RNNでは学習リソース的に性能の限界がありそうなので、Transformerに拡張したいところ。 pre-train が複雑なので1つのモデルを作るために複数回学習させる必要があるのが難点だが、最近よくあるモデル自体がめちゃくちゃ複雑なものよりかは、推論時を考えると嬉しい。 この paper では低リソースなデータセットを前提にしているが、 disentangled なモデル構造の方がキモ。データ数が増えてもどちらにせよ汎化性能のためには disentangled なモデルは必要になってくる。ので、うまくこの考え方を取り入れたドメインに依らない汎用的なモデルを考えていきたし
0. 論文
タイトル
Low-Resource Knowledge-Grounded Dialogue Generation
リンク
https://arxiv.org/abs/2002.10348
著者
Xueliang Zhao, Wei Wu, Chongyang Tao, Can Xu, Dongyan Zhao, Rui Yan
投稿日付
ICLR 2020
1. どんなもの?
知識を用いた対話システムを少ないデータリソースで効率よく学習するためのモデル・方法の提案。モデルのパラメータを通常の会話部分と知識による会話部分に分け、それぞれの部分で分けて事前学習を行い、disentangled された表現を decoder でうまく扱うことで効率化。 Wizard of Wikipedia, CMU Document Grounded Conversation の2つで実験し、既存モデルに対して 1/8 程度のデータ量で SoTA スコアを更新し、学習データとは異なるドメインに対しても少ないデータで適応できることを示した。
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
Wizard of Wikipedia, CMU_DoG データセットを、比較に Tranformer Memory Network (Wizard of Wikipedia のベースライン) と Incremental Transformer with Deliberation Decoder (ITDD) を使用して実験。提案手法については low-resource での効果を見るために、データセットを full, 1/2, 1/4, 1/8, 1/16 にして学習を行った。
結果はわかりやすい形になっており、Training と同じドメインのデータ (Test Seen) については ITDD が最も良いスコアだが、Test Unseen (Wizard of Wikipedia は test データが Test Seen と Test Unseen に分かれている) については ITDD の性能は大きく落ちているのに対して、提案手法はほとんど Test Seen と変わらない、かつそんなに悪くないスコアになっている。
5. 議論はある?
次の疑問について論文内で提示・実験を行っている。
6. 次に読むべき論文は?