AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
21 stars 0 forks source link

Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 #488

Open AkihikoWatanabe opened 2 years ago

AkihikoWatanabe commented 2 years ago

https://aclanthology.org/2020.inlg-1.14.pdf

AkihikoWatanabe commented 2 years ago

概要

pre-training済みのT5に対して、Data2Textのデータセットでfinetuningを実施する方法を提案。WebNLG(graph-to-text), ToTTo(table-to-text), Multiwoz(task oriented dialogue)データにおいて、simpleなTransformerでも洗練されたmulti-stageなpipelined approachをoutperformできることを示した研究。

手法

事前学習済みのT5に対してfine-tuningを実施した。手法はシンプルで、data-to-textタスクをtext-to-textタスクに変換した。具体的には、構造かされたデータをflatな文字列(linearization)で表現することで、text-to-textタスクに変換。各データセットに対するlinearizationのイメージは下図。デリミタや特殊文字を使って構造かされたデータをflatなstringで表現している。 image

データセット

ToTTo(2020)

Wikipediaのテーブルと自然言語でdescriptionのペアデータ

MultiWoz(2018)

10Kの人間同士のtask-orientedなdialogueデータ。

WebNLG(2017)

subject-object-predicateの3組みをテキスト表現に変換するタスクのデータ

image

Result

WebNLG

image GCNを利用した2020年に提案されたDualEncがSoTAだったらしいが、outperormしている。

ToTTo

image こちらのリーダーボードと比較してSoTAを記録

MultiWoz

image T5は事前学習済みGPT-2をfinetuningした手法もoutperformした。SC-GPT2は当時のMultiWozでのSoTA

Impact of Model capacity

T5モデルのサイズがどれが良いかについては、データセットのサイズと複雑さに依存することを考察している。たとえば、MultiWozデータは構造化データのバリエーションが最も少なく、データ量も56kと比較的多かった。このため、T5-smallでもより大きいモデルの性能に肉薄できている。 一方、WebNLGデータセットは、18kしか事例がなく、特徴量も約200種類程度のrelationのみである。このような場合、モデルサイズが大きくなるにつれパフォーマンスも向上した(特にUnseen test set)。特にBLEUスコアはT5-smallがT5-baseになると、10ポイントもジャンプしており、modelのcapacityがout-of-domainに対する一般化に対してcriticalであることがわかる。ToTToデータセットでも、SmallからBaseにするとパフォーマンスは改善した。

AkihikoWatanabe commented 2 years ago

所感

こんな簡単なfine-tuningでSoTAを達成できてしまうとは、末恐ろしい。ベースラインとして有用。