e4exp / paper_manager_abstract

0 stars 0 forks source link

BLEURT: Learning Robust Metrics for Text Generation #567

Open e4exp opened 3 years ago

e4exp commented 3 years ago

テキスト生成は、ここ数年で大きな進歩を遂げました。 しかし、評価指標の進歩は遅れており、BLEUやROUGEなどの最も一般的な評価指標は、人間の判断との相関性が低い場合があります。 我々は、BLEURTを提案する。 BLEURTは、数千の偏った可能性のある学習例で人間の判断をモデル化できる、BERTに基づく学習済み評価指標である。 我々のアプローチの重要な点は、モデルの一般化を助けるために数百万の合成例を使用する新しい事前学習スキームである。 BLEURTは、過去3年間のWMT Metrics shared taskおよびWebNLG Competitionデータセットにおいて、最先端の結果を提供しています。 BLEURTは、従来のBERTベースのアプローチとは対照的に、学習データが不足している場合や配布されていない場合でも、優れた結果を得ることができます。

e4exp commented 3 years ago

1 はじめに

ここ数年、自然テキスト生成(NLG)の研究が大きく進展しており、主にニューラル・エンコーダー・デコーダー・パラダイム(Sutskever et al, 2015)は、翻訳(Koehn, 2009)、要約(Mani, 1999; Chopra et al., 2016)、構造化データからテキストへの生成(McKeown, 1992; Kukich, 1983; Wiseman et al., 2017)対話(Smith and Hipp, 1994; Vinyals and Le, 2015)、画像キャプション作成(Fang et al. しかし、既存の評価指標の欠点により、進歩がますます妨げられています(Wisemanら、2017年、Maら、2019年、Tianら、2019年)。 人間による評価は、多くの場合、システムの品質の最良の指標となります。 しかし、クラウドソーシングの実験を設計することは、高価でレイテンシーの高いプロセスであり、日々のモデル開発パイプラインには容易に適合しません。 そのため、NLG研究者は一般的に、品質の許容できる代理を提供し、非常に安価に計算できる自動評価メトリクスを使用している。

本論文では、候補文が参照文とどの程度類似しているかを示す、文レベルの参照ベースの評価指標について検討しています。 類似性の正確な定義は、文字列の重なりから論理的な同義性まで多岐にわたる。 第一世代のメトリクスは、文の表面的な類似性を測定する手作りのルールに依存していた。 例えば、BLEU (Papineni et al., 2002) と ROUGE (Lin, 2004) という2つの有名な測定基準は、N-gramのオーバーラップに依存しています。 これらのメトリクスは、語彙的な変化にのみ敏感であるため、与えられた参照の意味的または構文的な変化を適切に評価することができません。 そのため、特に比較対象となるすべてのシステムの精度が同程度である場合、人間の判断との相関性が低いことが繰り返し示されています(Liu et al.2016; Novikova et al.2017; Chaganty et al.2018)。

NLGの研究者の間では、学習した成分をメトリクスに注入することで、これらの問題に対処するケースが増えています。 例えば、WMT Metrics Shared Taskを考えてみましょう。 これは、翻訳メトリクスが人間の評価を模倣する能力について比較される年次ベンチマークです。 過去2年間のコンペティションでは、ニューラルネットベースのアプローチであるRUSE、YiSi、ESIMが主役でした(Ma et al.2018, 2019)。 現在のアプローチは大きく2つのカテゴリーに分類される。 BEER、RUSE、ESIMなどの完全学習型メトリクスはエンド・ツー・エンドで学習され、一般的にハンドクラフトされた特徴量および/または学習されたエンベディングに依存しています。 逆に、YiSiやBERTscoreのようなハイブリッドメトリクスは、コンテキストエンベッディングなどの学習要素と、トークンアライメントルールなどの手書きロジックを組み合わせたものです。 人間の評価データのトレーニングセットが利用可能であれば、メトリクスはそれを最大限に活用し、評価分布にしっかりと適合させることができます。 さらに、学習されたメトリクスは、流暢性、忠実性、文法、スタイルなどのタスク固有の特性を測定するように調整することができる。

一方、ハイブリッドメトリクスはロバスト性を提供する。 また、学習データとテストデータが同一に分布しているという仮定に依存していないため、学習データがほとんどない場合でも、より良い結果を得ることができます。 実際、IIDの仮定は、NLGの評価において特に問題となります。 それは、メトリクス文献の主な対象となっているドメインドリフトや、品質ドリフトのためです。 NLGシステムは時間の経過とともに良くなる傾向があるため、2015年の評価データで学習したモデルでは、特に新しい研究課題において、2019年にトップパフォーマンスのシステムを区別できない可能性があります。 理想的な学習指標は、学習のために利用可能な評価データを最大限に活用することができ、かつ分布ドリフトに対してロバストであること、つまり外挿が可能であることです。

我々の洞察は、完全に学習された指標を大量の合成データで事前にトレーニングし、人間の評価で微調整することで、表現力と頑健性を両立させることができるというものです。 この目的のために、私たちはBLEURT、1 BERTに基づいたテキスト生成メトリックを紹介します(Devlin et al.、2019)。 BLEURTの重要な要素は、多様な語彙および意味レベルの監督信号のセットで補強されたWikipedia文のランダムな摂動を使用する、新しい事前学習スキームです。 このアプローチを実証するために、BLEURTを英語で学習し、さまざまな一般化領域の下で評価した。 まず、WMT Metrics Shared taskの最近のすべての年(2017年から2019年、英語と英語の言語ペア)において、最先端の結果を提供することを検証します。 次に、WMT 2017に基づいた合成ベンチマークを用いて、品質ドリフトに対処する能力をストレステストします。 最後に、データからテキストへのデータセットであるWebNLG 2017 (Gardent et al., 2017)の3つのタスクを用いて、異なるドメインに容易に適応できることを示します。 アブレーションは、私たちの合成事前学習スキームがIID設定でのパフォーマンスを向上させ、トレーニングデータが不足していたり、歪んでいたり、ドメイン外であったりする場合にロバスト性を確保するために重要であることを示しています。 コードと事前学習済みモデルはオンラインで入手可能 https://github.com/google-research/bleurt