ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation

e4exp commented 3 years ago

https://arxiv.org/abs/2104.08006
2021

現在、自然言語処理の分野では、事前学習の技術が普及しています。 ProphetNetは事前学習に基づいた自然言語生成手法であり、英語テキストの要約や質問生成タスクにおいて強力なパフォーマンスを示している。この論文では、ProphetNetを他のドメインや言語に拡張し、ProphetNetファミリーの事前学習モデルを提示します。我々は、多言語生成モデルProphetNet-Multi、中国語生成モデルProphetNet-Zh、2つのオープンドメインのダイアログ生成モデルProphetNet-Dialog-EnとProphetNet-Dialog-Zhを事前学習します。また、PLG(Programming Language Generation)モデルであるProphetNet-Codeは、NLG(Natural Language Generation)タスク以外の生成性能を示すために用意されています。我々の実験では、ProphetNet-Xのモデルは、10のベンチマークで最先端の新しい性能を達成しました。 ProphetNet-Xのすべてのモデルは同じモデル構造を共有しており、ユーザは異なるモデルを簡単に切り替えることができます。我々はコードとモデルを公開しており、今後もより多くの事前学習モデルや微調整用のスクリプトを更新していく予定である。また、ProphetNet-Xの使い方を紹介するビデオも公開しています。

e4exp commented 3 years ago

1 はじめに

近年、かなり多くの自然言語生成事前学習モデルが提案されている（Qi et al. 下流の生成タスクは、これらの大規模な事前トレーニングモデルから、流暢さと正確さにおいて大きな恩恵を受けます。研究者たちはまた、DialoGPT（Zhang et al., 2019）はGPT（Brown et al., 2020）からダイアログシステム用に拡張され、mBART（Liu et al., 2020b）はBART（Lewis et al., 2019）から多言語生成用に拡張され、CodeBERT（Feng et al., 2020）はBERT（Devlin et al., 2018）からプログラミング言語モデリング用に拡張されるなど、これらの一般的な事前学習作品を特定のドメインに拡張しています。いくつかの特定のドメインのために事前に訓練されたモデルがありますが、ユーザーがそれらを見つけて設定するのは便利ではありません。また、同じ事前学習ファミリーのモデルでも、モデル構造や事前学習のタスクが同じでも、実装やバックエンドの選択が異なるため、コードや詳細が大きく異なります。

ProphetNet (Qi et al., 2020) は、将来のトークンを予測する英語テキストの事前学習モデルとして最初に提案され、さまざまな下流のNLGタスクで性能を向上させることに成功している。本研究では、異なるコーパスを用いてProphetNetの事前学習を行う。これらのコーパスは、異なる言語とドメインをカバーしています。すべての事前学習済みモデルは、異なる語彙で同じモデル構造を共有しています。その中には、160GBの英語の生テキストで事前学習したProphetNet-En、160GBの中国語の生テキストで事前学習したProphetNet-Zh、101GBのWiki-100コーパスと1.5TBのCommon Crawl3データで事前学習したProphetNet-Multi、6000万セッションのRedditオープンドメインのダイアログコーパスで事前学習したProphetNet-Dialog-En、3000万セッション以上の中国語のダイアログコーパスで事前学習したProphetNetDialog-Zh、1000万のコードとドキュメントで事前学習したProphetNet-Codeがあります。

ProphetNet-Xは，中国語要約（MATINF-SUMM (Xu et al., 2020a) and LCSTS (Hu et al., 2015)），中国語質問応答（MATINF-QA (Xu et al., 2020a)），クロスリンガル生成（XGLUE NTG (Liang et al, 2020）、XGLUE QG（Liang et al., 2020））、英語要約（MSNews（Liu et al., 2020a））、英語ダイアログ生成（DailyDialog（Li et al., 2017）、PersonaChat（Zhang et al., 2018）、DSTC7- AVSD（Alamri et al., 2019））、コード要約（CodeXGLUE（Lu et al., 2021））などがあります。ユーザーは、ProphetNet-Xのリポジトリをダウンロードするだけで、下流のタスク微調整スクリプトで対応する事前学習済みモデルを見つけることができます。

ProphetNet-Xの主な貢献は以下のように説明できます。

ProphetNet-Xと名付けられた事前学習済みのモデル群を提供し、オープンドメインや対話における英語と中国語の自然言語生成、多言語生成、コード生成など6つのモデルを持つ。
すべての学習済みモデルは同じモデル構造を持っています。ユーザーは、異なる言語やドメインのタスクで使用するために、1つのモデルファイルを簡単に修正するだけで済みます。
我々は広範な実験を行い、その結果、ProphetNet-Xのモデルは10の公開ベンチマークで新しい最先端のパフォーマンスを達成した。

e4exp commented 3 years ago

5 結論

本論文では，オープンドメイン（英語，中国語，多言語），対話（英語，中国語），プログラミング（Ruby，Javascript，Go，Python，Java，PHP）など，さまざまな言語とドメインで ProphetNet-X の事前学習を行った。すべてのモデルは同じモデル構造を共有しており、使いやすいものになっています。広範な実験の結果、ProphetNet-Xは10のベンチマークで最先端の新しい性能を達成しました。将来的には、ProphetNet-Xを拡張して、バイオメディカルテキストやタンパク質の事前学習など、より多くのドメインをサポートする予定です。

e4exp / paper_manager_abstract

ProphetNet-X: Large-Scale Pre-training Models for English, Chinese, Multi-lingual, Dialog, and Code Generation #397