[2019] Pretraining Methods for Dialog Context Representation Learning

0. 論文

タイトル

Pretraining Methods for Dialog Context Representation Learning

リンク

https://arxiv.org/abs/1906.00414

著者

Shikib Mehri, Evgeniia Razumovskaia, Tiancheng Zhao, Maxine Eskenazi

投稿日付

ACL 2019

1. どんなもの？

対話文脈の表現学習ための事前学習(教師なし学習の目的関数)について調査した研究。既存の事前学習モデルは言語モデルをベースにしており、token レベルでの表現を得られるが、対話では複数ターンの文脈が必要になる。token レベルではなく discourse レベルの表現が学習できる事前学習のプロトコル4つ(うち2つは新たに提案)の方法について実験、分析を行った。

2. 先行研究と比べてどこがすごい？

文レベルの理解が必要になる対話ドメインをターゲットとして、discourse レベルを学習できるような既存の事前学習プロトコル2つと、新たに提案した2つの計4つについて調査・実験・分析を行っている。 word レベルの研究は多いが、対話に特化した事前学習手法についてその性能を調査した例は初。

3. 技術や手法のキモはどこ？

事前学習の目的関数として、次の4つを試す。

Next-Utterance Retrieval (NUR)
- 次の発話を候補の中から選択する
- loss は候補の中での分類での cross entropy
Next-Utterance Generation (NUG)
- 次の発話を生成する
- loss は各 token の確率の負の対数尤度 (= cross entropy)
Masked-Utterance Retrieval (MUR)
- MLM の文 ver. で、対話履歴の一つの文を replace して、正解を候補から当てる
- loss は候補の中での分類での cross entropy
Inconsistency Identification (InI)
- MUR では一つの文を replace し、正解を候補の中から探すが、InI は replace された文がどれかをインデックスで当てる
- loss はインデックスの分類での cross entropy

また、次の下位タスクで性能を見る。

Belief State prediction (BSP)
- 1784次元の会話ステートの予測。27個の Entity があり、それぞれの one-hot vector をつなげたもの。
- 内容はドメイン毎に色々もっており、Taxi なら leaveAt , destination などの entity を持っている。
Dialog Act Prediction (DAP)
- BSP とにているが、対話の結果 system がとる action の予測。32次元の multi-hot vector を予測する。
- 電車の時刻を答えたり、ホテルに query を投げたりなど。
Next-Utterance Generation
- 次の発話の生成
- BLEU-4 で計測
Next-Utterance Retrieval
- 次の発話を k 個の候補から選択
- 性能評価として良いらしい (Lowe et al., 2016)

4. どうやって有効だと検証した？

(1) 事前学習 + finetuning による性能、(2) 収束性、 (3) finetuning 時のデータが少ない場合の性能、(4) ドメイン汎化性能、の4点で性能を検証。

external data を使わずに、 finetuning で使用するデータ (Multiwoz dataset) で pretrain も行って、上記の下位タスクで検証
- additional data による恩恵ではなく、pretrain により更に情報が得られているかどうかを見たいため
単純にそれぞれのタスクについて試したのが Table 1 (下記)。
- BSP 以外はよくなっている。
- BSP が悪いのは、タスクが難しいため token level の情報に頼る必要があると推測。
- 収束条件については Figure 1. どれも恩恵を得られていそうだった
limited data で実験、finetuning 時のトレーニングデータを減らして性能を見た
- 少ないデータでも効果があるのは NUG
- generation task は難しい分良い特徴が取れている説
ドメイン汎化性能もある
InI, MUR は対話履歴を長く使える場合に効果的 (Table 5)

5. 議論はある？

NUR と NUG はお互いに補助的なタスクになっている
NUG はそのタスクの難しさから、 general な表現を学習できる
InI と MUR は各発話の local representation をかなり学習できている
- この pretrain により NUG 精度は上がる
- NUG は全体の文脈 (global representation) だけではなく、各発話の理解 (local representation)も必要
pretrain と finetune で同じデータを使うことについて
- 同じデータで事前に異なる目的関数で学習させることで、よりよい表現を獲得できていることが分かった
future work として
- より大きな external data での事前学習
- 関係性の薄いデータセットでの事前学習によるテスト
- word-level の目的関数を追加したテスト

6. 次に読むべき論文は？

MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling
- https://arxiv.org/abs/1810.00278
- Paweł Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman Ramadan, Milica Gašić
- EMNLP 2018
- データセットとして使用された

cfiken / paper-reading