概要

小規模なデータセットのパフォーマンスを向上させるための効果的な方法であるプレトレーニングにフォーカスした研究。

Neural Headline Generationタスク(NHG)におけるseq2seqのencoder、decoder、中間層に事前にプレトレーニングしたパラメータを用いることを提案。その結果、パープレキシティとROUGEが改善した。

NHGモデルを訓練する場合の一般的なアプローチでは、テキストの先頭数文(一文か二文程度)を使っているため(src:一文目, trg:タイトルのペア)、それ以降のテキスト情報は未使用となっている。ここでは、プレトレーニングの段階で全てのテキスト情報を学習することで、より単語と文脈の理解ができるようなパラメータになるみたい。