Poolingformer: Long Document Modeling with Pooling Attention

e4exp commented 3 years ago

https://arxiv.org/abs/2105.04371
2021 ICML

本論文では、長い文書のモデリングのために、2レベルのアテンションスキーマ、Poolingformerを紹介する。最初のレベルでは、小さなスライディングウィンドウパターンを用いて、隣人からの情報を集約する。第2段階では、より大きな窓を用いて受容野を増やし、プーリングアテンションにより計算コストとメモリ消費量を削減する。まず、Poolingformerを単言語のNQと多言語のTyDi QAという2つの長文QAタスクで評価した。実験結果によると、Poolingformerは、F1で測定される3つの公式リーダーボードのトップに位置しており、NQの長文回答で1.9ポイント（79.8 vs. 77.9）、TyDi QAの通路回答で1.9ポイント（79.5 vs. 77.6）、TyDi QAの最小回答で1.6ポイント（67.6 vs. 66.0）、これまでの最新モデルを上回っています。さらに、Poolingformerを長文要約タスクで評価しました。 arXivベンチマークでの実験結果は、引き続きPoolingformerの優れた性能を示している。

e4exp commented 3 years ago

はじめに

Transformer (Vaswani et al., 2017) アーキテクチャは、さまざまな自然言語処理タスクで広く使用されており、Translation (Lewis et al., 2020), Summarization (Qi et al., 2020), Text Classification (He et al., 2020) , Language Modeling (Brown et al., 2020) などの素晴らしい結果が得られています。自己言及はTransformerの重要なコンポーネントの1つであり、テキストトークンが相互に作用し、文脈に応じた表現を生み出すことができます。自己言及の有効性にもかかわらず、その計算およびメモリの複雑さは、配列の長さに対して二次関数的に増加します。そのため、既存の変換器ベースの事前学習モデル（Alberti et al., 2019; He et al., 2020; Liu et al., 2019）のほとんどは、メモリまたは計算上の制約のために最大シーケンス長を512に設定しており、これはしばしば長いシーケンスタスクでの性能低下につながる（Kwiatkowski et al., 2019; Cohan et al., 2018）。トランスフォーマーの自己吸着層を長尺シーケンスのモデル化に適したものにするために、多くの作品が提案されている(Miculicich et al., 2018; Liu & Lapata, 2019; Beltagy et al., 2020; Zaheer et al., 2020; Wang et al., 2020b)。例えば、Longformer（Beltagy et al., 2020）は、計算コストを削減するために、ローカルな注意パターンとグローバルな注意パターンの両方の組み合わせを提唱しています。 Hierarchical transformer (Liu & Lapata, 2019) は、長い文書をより短いパラグラフに分割し、パラグラフ内のインターセルフアテンションとパラグラフ間のイントラセルフアテンションを適用することを提案している。

先行研究（Miculicich et al., 2018; Liu & Lapata, 2019; Beltagy et al., 2020; Zaheer et al., 2020; Wang et al., 2020b）にヒントを得て、完全な自己注意を2レベルの注意スキーマに改訂するPoolingformerを提案する。第1レベルでは、図1(a)に示すように、各トークンがウィンドウ内の隣接するトークンのみに注意を払うスライディングウィンドウ型の注意パターンを採用します。第2レベルのアテンションでは、ウィンドウサイズを大きくして受容野を増やし、続いてトランスフォーマのキーベクトルとバリューベクトルの両方にプーリング演算を行い、アテンションすべきトークンの数を減らします。このスライディングウィンドウとプーリングを組み合わせたマルチレベルデザインにより、計算コストとメモリ消費量を大幅に削減しつつ、優れたモデル性能を実現しています。単一レベルの局所的な注意を持つモデル（Beltagy et al., 2020; Zaheer et al., 2020）と比較して、Poolingformerは、図1（b）に示すように、第2レベルのプーリング注意メカニズムの恩恵を受けて、トークンあたりの注意受容野を大きくすることができます。その一方で、第2レベルの注意のプーリング操作による情報損失を軽減するために、第1レベルのスライディングウィンドウの注意パターンを維持します。 Hierarchical Transformer (Liu & Lapata, 2019)と比較して、Poolingformerは、長文文書を明示的に段落に分割する必要がありません。そのため、極めて長いテキスト列をまとまった形で適用できる、より一般的な長文配列モデルとなっている。 Transformer（Vaswani et al., 2017）と比較すると、Poolingformerの計算およびメモリの複雑さは、シーケンスの長さに対して線形に増加するだけです。実験ではまず、単言語のNQ1と多言語のTyDi QA2という2つのQAデータセットを用いて、Poolingformerの優れた性能を実証します。実験結果によると、Poolingformerは公式リーダーボードで最先端の結果を達成しました。引き続き、極めて長い要約タスクarXiv（Cohan et al.2018）でPoolingformerを評価しています。実験結果は、Poolingformerがこの困難なベンチマークで新たな最先端の結果を設定したことを示しています。

e4exp commented 3 years ago

結論

我々は、線形複雑性を持つ長いシーケンスモデリングのための2レベルの注意モデルであるPoolingformerを紹介する。第1レベルの注意では、小さいスライディング・ウィンドウ・パターンを使って、隣のトークンからの情報を集約する。第2レベルの注目では、より大きな窓サイズで受容野を増やし、その後、計算コストを削減するために、キーと値の両方のベクトルにプーリング操作を行います。 Poolingformerは、長い文書のQAタスクにおいて最先端の性能を達成し、長い文書の要約タスクにおいても優れた性能を示した。今後の課題として、以下のような観点からPoolingformerの継続的な改良を検討していく。

1) 古典的な単一レベルの自己注意とは対照的な、提案された多レベルの注意の理論的分析。 2）Poolingformerを画像や音楽などの他の種類の長尺シーケンスデータに拡張する。

e4exp / paper_manager_abstract

Poolingformer: Long Document Modeling with Pooling Attention #482