概要

Neural basedなend-to-endなNLGアプローチはdata-hungryなので、Few Shotな設定で高い性能ができる手法を提案（Few shot NLG） Table-to-Textタスク（WikiBIOデータ, 追加で収集したBook, SongドメインのWikipediaデータ）において、200程度の学習サンプル数でstrong baselineに対して8.0 point程度のBLEUスコアの向上を達成

手法

TabularデータのDescriptionを作成するには大きく分けて2つのスキルが必要

factualな情報を持つcontentをselectし、copyするスキル
factualな情報のコピーを含めながら、文法的に正しいテキストを生成するスキル提案手法では、1を少量のサンプル（< 500）から学習し、2については事前学習済みの言語モデルを活用する。

encoderからコピーする確率をpcopyとし、下記式で算出する：すなわち、encoderのcontext vectorと、decoderのinputとstateから求められる。 encoderとencoder側へのattentionはscratchから学習しなければならず、うまくコピーできるようにしっかりと”teach”しなければならないため、lossに以下を追加する：すなわち、コピーすべき単語がちゃんとコピーできてる場合にlossが小さくなる項を追加している。また、decoder側では、最初にTable情報のEmbeddingを入力するようにしている。また、学習できるデータ量が限られているため、pre-trainingモデルのEmbeddingは事前学習時点のものに固定した（ただしく読解できているか不安）

実験

WikiBIOと、独自に収集したBook, Songに関するWikipediaデータのTable-to-Textデータを用いて実験。このとき、Training instanceを50~500まで変化させた。

WikiBIOデータセットに対してSoTAを記録しているBase-originalを大きくoutperform（Few shot settingでは全然うまくいかない）。

inputとoutput例と、コピーに関するlossを入れた場合の効果。

人手評価の結果、Factual informationの正しさ（#Supp）、誤り（#Cont）ともに提案手法が良い。また、文法的な正しさ（Lan. Score）もコピーがない場合とcomparable

AkihikoWatanabe / paper_notes

Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL'20 #494

概要

手法

実験