AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
17 stars 0 forks source link

Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL'20 #494

Open AkihikoWatanabe opened 1 year ago

AkihikoWatanabe commented 1 year ago

https://aclanthology.org/2020.acl-main.18.pdf

AkihikoWatanabe commented 1 year ago

概要

Neural basedなend-to-endなNLGアプローチはdata-hungryなので、Few Shotな設定で高い性能ができる手法を提案(Few shot NLG) Table-to-Textタスク(WikiBIOデータ, 追加で収集したBook, SongドメインのWikipediaデータ)において、200程度の学習サンプル数でstrong baselineに対して8.0 point程度のBLEUスコアの向上を達成

手法

TabularデータのDescriptionを作成するには大きく分けて2つのスキルが必要

  1. factualな情報を持つcontentをselectし、copyするスキル
  2. factualな情報のコピーを含めながら、文法的に正しいテキストを生成するスキル 提案手法では、1を少量のサンプル(< 500)から学習し、2については事前学習済みの言語モデルを活用する。

image

encoderからコピーする確率をpcopyとし、下記式で算出する: image すなわち、encoderのcontext vectorと、decoderのinputとstateから求められる。 encoderとencoder側へのattentionはscratchから学習しなければならず、うまくコピーできるようにしっかりと”teach”しなければならないため、lossに以下を追加する: image すなわち、コピーすべき単語がちゃんとコピーできてる場合にlossが小さくなる項を追加している。 また、decoder側では、最初にTable情報のEmbeddingを入力するようにしている。 また、学習できるデータ量が限られているため、pre-trainingモデルのEmbeddingは事前学習時点のものに固定した(ただしく読解できているか不安)

実験

WikiBIOと、独自に収集したBook, Songに関するWikipediaデータのTable-to-Textデータを用いて実験。 このとき、Training instanceを50~500まで変化させた。 image

WikiBIOデータセットに対してSoTAを記録しているBase-originalを大きくoutperform(Few shot settingでは全然うまくいかない)。

inputとoutput例と、コピーに関するlossを入れた場合の効果。 image

人手評価の結果、Factual informationの正しさ(#Supp)、誤り(#Cont)ともに提案手法が良い。また、文法的な正しさ(Lan. Score)もコピーがない場合とcomparable image