GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures

e4exp commented 3 years ago

https://arxiv.org/abs/2106.05822
2021

注意に基づく言語モデルは、最先端の自然言語処理システムにおいて重要な要素となっている。しかし、これらのモデルは、長い学習時間、高密度の演算、膨大なパラメータ数のために、大きな計算量を必要とします。本研究では、Transformer層の構造にいくつかの変更を加え、より効率的なアーキテクチャを実現しました。まず、自己注意モジュールを補完するために、畳み込みモジュールを追加し、局所的な相互作用と大域的な相互作用の学習を分離します。次に、グループ化された変換により、モデルの表現力を維持しつつ、密なフィードフォワード層と畳み込みの計算コストを削減します。結果として得られたアーキテクチャを言語表現学習に適用し、様々な規模のBERTモデルと比較して、その優れた性能を実証しました。さらに、浮動小数点演算（FLOPs）と学習時間の両方の観点から、効率性が向上していることを明らかにした。

e4exp commented 3 years ago

1 はじめに

深層ニューラルネットワークは、エンドツーエンドの言語処理を実現するための有力なソリューションとして登場しました(Hochreiter & Schmidhuber, 1997; Sutskever et al., 2014; Chung et al., 2014)。最近では、自己注意メカニズムに基づくTransformerモデル（Vaswani et al., 2017）が、言語アプリケーションのための最も有望なアーキテクチャとなっています（Devlin et al., 2018; Radford et al., 2019; Brown et al., 2020）。アテンションベースのモデルも、自然言語処理とは異なるドメインで確立されたアプリケーションで有望な結果を示すことが多くなってきています（Dosovitskiy et al.、2020）。トランスフォーマーは、シーケンスの長距離依存性をモデル化する能力が向上したことに加えて、より大きなサイズへの拡張性に優れており（Kaplan et al. これにより、これらのモデルは、従来のリカレント言語モデルよりも有利になります。これらのモデルの計算需要が高まっていることから、より効率的なアーキテクチャを開発することへの関心が高まっており、急務となっている（Strubell et al. 以前のいくつかの提案は、タスク性能の向上に伴いTransformerの計算負荷を軽減することができましたが、セクション2でさらに議論するように、多くの場合、それに対応して実行速度が遅くなります。

これらのモデルはHardware Lotteryフィルター（Hooker, 2020）を通過できなかったかもしれませんが、本作ではGraphcore社のIntelligence Processing Unit（IPU）（Jia et al.2019）を活用することで、計算効率の向上を中心とした様々な手法を検討することができました。我々は、エンコーダスタックによるFLOP利用率を向上させるTransformer層の構造に対する一連の修正を実証しています。提案されたGroupBERTモデルは、グループ化された行列の乗算と畳み込みに依存しており、タスク性能と計算効率の両方に優れたBERTアーキテクチャーのより効率的なバージョンを実現しています。これらの効率的な構築ブロックは、所定のメモリアクセスに対する計算負荷が低減されている（Masters et al.、2021 年）。この特性は、大規模な密な計算と低減されたメモリアクセスに依存する従来のアクセラレータには望ましくない。しかし、IPUのハードウェアアーキテクチャでは、モデルの実行にオンチップSRAMを使用しているため、メモリ帯域幅の小さいハードウェアのユーザーが捨ててしまうような、より効率的な計算ブロックを使用できる可能性があります。 IPUでは、Transformer層を拡張して、Multi-head attention（MHA）、grouped convolution（グループ化された畳み込み）、grouped feed-forward（GFFN）の4つのモジュールを搭載することで、性能の向上を実現しました。 MHAとグループ化畳み込みモジュールは、トークン情報をシーケンス次元で処理し、それぞれに一般的な計算を行うGFFNモジュールが続きます。提案されている GroupBERT 層のモジュール数は 2 倍ですが、グループ化されたスパースな演算を利用しているため、全体的な計算量の増加はわずかであり、合計 FLOP は約 60%増加しています。 GroupBERT は、FLOP あたりの性能が優れているだけでなく、総学習時間で測定した場合、より速く実行されます。注目と畳み込みの両方を採用することで、このモデルは、短距離および長距離の相互作用に特化したコンポーネントを持ち、より高価な注目メカニズムをより効率的に使用しています。また、大規模なテキストコーパスでの事前学習のためにドロップアウトを破棄し、より高い学習率を使用するために安定性を向上させることで、学習時にGroupBERTのパラメータをより効率的に利用しています。これらすべての革新により、GroupBERT Base は、BERT Base よりもわずかに大きいだけですが、BERT Large の半分以下の FLOPs を使用して、BERT Large よりも優れた検証 MLM 損失を達成しています。

e4exp commented 3 years ago

e4exp / paper_manager_abstract

GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures #538

1 はじめに