[2021] I like fish, especially dolphins: Addressing Contradictions in Dialogue Modeling

0. 論文

タイトル	I like fish, especially dolphins: Addressing Contradictions in Dialogue Modeling
リンク	https://arxiv.org/abs/2012.13391 https://parl.ai/projects/contradiction/
著者	Yixin Nie, Mary Williamson, Mohit Bansal, Douwe Kiela, Jason Weston (Facebook Research)
投稿日付	ACL2021

1. どんなもの？

スクリーンショット 2021-09-12 19 22 27

自然言語理解がどの程度普通の会話を理解できるかを定量化するため、人-人と人-bot の、対話内に矛盾を含む発話があるようなデータセット DialoguE COntradition DEtection task (DECODE) を作成。既存の NLI データセットと比較し、矛盾検知に有効であることを実験で確認した。モデル化も2パターン行い、現在主流の対話履歴をまるごとモデルに入れる Unstructured なアプローチよりも、各発話ごとで比較する手法の方が汎化性能が高いことを実験で示した。対話生成にも評価指標として一定の効果があることも確認している。

2. 先行研究と比べてどこがすごい？

対話において、履歴に対して返答が contradiction かどうかに特化したデータセットを作成し、矛盾検知において NLI 系データセットよりも有効であることを確認した。
現在主流の NLU タスクに対するモデル化である Unstructured approach と Structured Utterance-based Approach を比較し、後者が有効であることを確認した。

3. 技術や手法のキモはどこ？

DECODE を既存データセット (Wizard of Wikipedia, EmpatheticDialogues, Blended Skill Talk, ConvAI2) から作成。
- 既存データは矛盾のないデータとして活用する。
- 既存データの最期の1文に対して、クラウドワーカーにそれまでの文脈と矛盾する文を作成してもらい、どの文と矛盾しているか（supporting evidence）も一緒に記録する。
- 基本データを上記で作成し、他にも augmentation 的に次のようにデータを作成
  - Add Two Columns (A2C): 関係ない1ターンの対話（2発話）を対話履歴に追加する（ラベルは変えない）
  - Remove Contradicting Turns (RCT): supporting evidence となる文をすべて削除する（ラベルを矛盾 -> 非矛盾に変える）

4. どうやって有効だと検証した？

タスク
- 学習したモデルで DECODE の test データや人-bot の対話データに対して、 contradiction or not を予測する。
- Structured なアプローチの場合は、対応する発話が supporting evidence かどうかも予測する
ベンチマークデータセット
- 本研究で集めた DECODE データセットに加え、SNLI, MNLI, ANLI, DNLI をいくつかの組み合わせで使用
- テストに使うのは DECODE データに加えて、様々な bot を用意して収集した Human-bot 間の対話データ。
結果
- DECODE で学習したモデルが最も高いスコアに。contradiction を見つけるタスクでのデータセットの有効性を示した。
- Unstructure (対話履歴をつなげて inputs にする) と Structured (対話履歴から1つ + 矛盾があるかどうかの発話を入力) の2パターンについては、後者の方が汎化性能が高く、OODなデータに足してもロバスト。

5. 議論はある？

unstractured と structured の2パターンのモデルを試しているが、汎化性能は後者のほうが良かった。これは一般的に行われているような Transformer にデータを入れたら構造を学習してくれる、という期待とは異なるものとのこと。
DECODE で学習したモデルは対話システムの自動評価にも使えそうとのこと。試しに集めたデータで見てみたら contradiction かどうかの人手評価との Peason 相関が 0.81 となかなか高い。
同様に、 re-rank の際に DECODE のモデルスコアを使うことで contradiction rate を大きく下げられることも確認した。

cfiken / paper-reading

[2021] I like fish, especially dolphins: Addressing Contradictions in Dialogue Modeling #151