e4exp / paper_manager_abstract

0 stars 0 forks source link

The Devil is in the Detail: Simple Tricks Improve Systematic Generalization of Transformers #626

Open e4exp opened 2 years ago

e4exp commented 2 years ago

近年、ニューラルネットワークの系統的な一般化能力をテストするために、多くのデータセットが提案されている。 その中で、標準的なタスクから得られるデフォルトのハイパーパラメータを用いて学習されたベースラインTransformerは、劇的に失敗することが示されている。 ここでは、埋め込みのスケーリング、早期停止、相対的な位置の埋め込み、Universal Transformerのバリエーションなどの基本的なモデル設定を見直すことで、系統的な一般化に関するTransformerの性能を劇的に向上させることができることを示します。 我々は、5つの人気データセットでの改善を報告する。 SCAN、CFQ、PCFG、COGS、Mathematicsデータセットの5つの人気データセットでの改善を報告します。 我々のモデルは、PCFGの生産性分割では50%から85%に、COGSでは35%から81%に精度を向上させました。 SCANでは、相対位置埋め込みによってEOS判定問題(Newman et al.2020)が大幅に緩和され、26をカットオフとした長さの分割で100%の精度が得られた。 重要なのは、これらのモデル間のパフォーマンスの違いは、IIDデータの分割では一般的に見えないということです。 このことから、系統的に一般化するニューラルネットワークを開発するためには、適切な一般化検証セットが必要です。 今回の結果を再現するためのコードを公開します。

e4exp commented 2 years ago

1 はじめに

系統的一般化(Fodor et al., 1988)とは、ニューラルネットワークが学習中に見た構成規則を学習分布を超えて外挿するために望まれる特性であり、例えば、既知の規則の異なる組み合わせを実行したり、より長い問題に適用したりすることができる。

近年の人工ニューラルネットワークの進歩にもかかわらず、系統的な一般化の問題はまだ未解決です(Fodor and McLaughlin, 1990; Lake and Baroni, 2018; Liska et al., 2018; Greff et al., 2020; Hupkes et al. 過去数年で多くの進歩があり(Bahdanau et al., 2019; Korrel et al., 2019; Lake, 2019; Li et al., 2019; Russin et al., 2019)、特に人気のあるSCANデータセット(Lake and Baroni, 2018)では、いくつかの手法が、システムにいくつかの非自明な記号的コンポーネントを導入することで100%の精度を達成することさえあるが(Chen et al., 2020; Liu et al., 2020)、そのようなソリューションの柔軟性には疑問がある。 実際、既存のSCANにインスパイアされたソリューションは、他のデータセットでの性能向上が限られている(Furrer et al., 2020; Shaw et al., 2020)。 したがって、系統的な一般化の研究を進めるためには、SCANデータセットのみに注目するだけでは不十分である。 最近では、PCFG(Hupkes et al., 2020)やCOGS(Kim and Linzen, 2020)など、系統的な一般化をテストするためのデータセットが多く提案されています。 データセットとともに公開されているTransformerのベースラインモデルは、一般的にこのタスクで劇的に失敗することが示されています。 しかし、これらのベースラインモデルの構成には疑問があります。ほとんどの場合、機械翻訳の標準的な手法がそのまま適用されています。 また、問題に関連する相対位置埋め込み(Shaw et al., 2018; Dai et al., 2019)などの一部の既存技術は、ベースラインの一部ではありません。 体系的な汎化を改善する手法を開発・評価するためには、優れたデータセットだけでなく、既存のアーキテクチャの限界を正しく評価し、悪いベースラインに対する誤った進歩の感覚を避けるための強力なベースラインが必要である。 本研究では、これらのタスクにおけるTransformer (Vaswani et al., 2017) および特にそのユニバーサルバリアント (Dehghani et al., 2019) の能力が大きく過小評価されていることを実証する。

我々は、モデルとトレーニングの構成の慎重な設計は、体系的な一般化をテストするこれらの推論タスクのために特に重要であることを示します。 単語と位置の埋め込みの基本的なスケーリング、早期停止戦略、相対的な位置の埋め込みなどの構成を見直すことで、ベースラインのTransformerの性能を劇的に向上させる。 5つのデータセットで実験を行った。 SCAN (Lake and Baroni, 2018), CFQ (Keyers et al., 2020), PCFG (Hupkes et al., 2020), COGS (Kim and Linzen, 2020), Mathematic dataset (Saxton et al., 2019) の5つのデータセットで実験を行う。 特に、我々の新しいモデルは、既存のベースラインと比較して、PCFGの生産性スプリットでの精度を50%から85%に、システマリティスプリットでの精度を72%から96%に、COGSでの精度を35%から81%に向上させた。 SCANデータセットでは、相対位置埋め込みを用いたモデルが、いわゆるEOS(End-of-Sentence)判断問題(Newman et al. さらに重要なことは、このような劇的な性能差にもかかわらず、これらのモデルはすべてIID検証データセットで同等の性能を発揮することを示しています。 この観察の結果、系統的な汎化のためのニューラルネットワークを開発するには、適切な汎化検証セットが必要であることがわかりました。 我々は、様々なデータセットにおいて経験的に良好な性能をもたらすガイドラインを徹底的に議論し、我々の結果を再現可能にするためにコードを公開する予定である。