Decoupled Transformer for Scalable Inference in Open-domain Question Answering

https://arxiv.org/abs/2108.02765
2021

BERTのような大規模な変換モデルは、オープンドメインの質問応答（QA）における機械読解（MRC）で最先端の結果を達成しています。しかし、変換モデルは推論のための計算コストが高く、音声アシスタントのようなアプリケーションのオンラインQAシステムに適用することは困難です。そこで、本研究では、変換器のMRCモデルを入力コンポーネントとクロスコンポーネントに分離することを提案する。この分離により、表現計算の一部をオフラインで実行し、オンラインで使用するためにキャッシュすることができます。分離された変圧器の精度を維持するために、標準的な変圧器モデルから知識を抽出する目的を考案した。さらに、学習済みの表現圧縮層を導入することで、キャッシュに必要なストレージ容量を4倍に削減した。 SQUAD 2.0データセットを用いた実験では、非結合型変換器は、標準的な変換器と比較して、F1スコアをわずか1.2ポイント悪化させるだけで、オープンドメインMRCの計算コストとレイテンシーを30-40%削減した。

1 はじめに

オープンドメイン質問応答（QA）は、テキストの文章の集合から質問に答えることを目的としています。これは、ウェブ検索や音声アシスタントなどのいくつかのドメインに適用される重要かつ困難なタスクです。オープンドメインQAの最も一般的なアーキテクチャは、retriever-readerです（Chen et al.、2017）。質問が与えられると、リトリーバーは文章の集合体に対する情報検索（IR）システムを使用して、答えを含む可能性が最も高いトップKの結果を返します。次に、読み手は、トップKの結果のそれぞれに対して機械読解（MRC）モデルを使用して答えを見つける。最終的には、上位K件のMRCの回答がランク付けされ、最終的な回答が得られる。レトリバーとリーダーの両方について、BERT（Devlin et al., 2018）、RoBERTa（Liu et al., 2019）、ELECTRA（Clark et al., 2020）などの大規模な変換モデルは、最先端の結果を達成します。大規模なトランスフォーマーモデルの欠点は、推論のための計算コストが高く、音声アシスタントなどのオンラインランタイムシステムに適用することが難しいことです。

トランスフォーマーの計算コストには、大きく分けて3つの要因があります。 1つ目は、中間的な高次元に投影し、元の次元に戻すフィードフォワード層のサイズです。第二に、マルチヘッドセルフアテンションは、シーケンスの長さに対して二次的な計算の複雑さを持ちます。 3つ目は、層の総数です。

DPR（Dense passage retrieval）（Karpukhin et al.、2020）は、意味的な類似性を捉えるために、変換質問エンコーダーと変換通路エンコーダーを使用する検索モデルである。質問エンコーダーとパッセージエンコーダーは、答えを含む可能性の高いパッセージが質問エンベッディングとの大きなエンベッディング・ドットプロダクトを持つように学習されます。パッセージのエンベッディングは、オフラインで生成され、効率的な分散KNN検索のためにインデックス化され(Johnson et al., 2017)、質問のエンベッディングのみが実行時に生成される。質問は通常短いので、リトリーバー実行時の推論計算コストは低い。 MRCリーダーモデルは、リトリーバーから返されたトップKの通路を処理して答えを得る。変換器ベースのMRCモデルでは、各パッセージはCLSとセパレータ文字を使って質問と一緒にエンコードされる [CLS] Question [SEP] Passage. 符号化の後には、答えのスパンを決定する予測ヘッドが続きます。答えがない場合、モデルの結果はCLSトークンのゼロレングスのスパンとなります。ドキュメントと質問の共同エンコーディングは、豊富なインタラクション機能を提供しますが、シーケンスの長さが長くなるため、計算コストが高くなります。 MRCのモデル推論は、質問と文章の長いシーケンスに対して実行時に実行されるため、MRCはretrieverreader QAの主な計算上のボトルネックとなっています。

変圧器モデルの実行時の推論を減らすために、量子化による精度の低下（Zafrir et al., 2019; Shen et al., 2020）、より小さなアーキテクチャへの知識の蒸留（Sanh et al., 2019; Jiao et al., 2019）、二次的な複雑さを減らすための近似マルチヘッドアテンション（Wang et al., 2020; Beltagy et al., 2020）など、いくつかのアイデアがある。本論文では、効率を向上させるために複数の入力に対する変換符号化をデカップリングするという直交的なアプローチをとり、前述の技術と組み合わせることができる。非結合型変換器の動機は、オープンドメインQAでは通路が事前に知られており、通路の計算の一部をオフラインで実行して保存することができるからである。そして、実行時にオンラインで質問の計算を一度だけ実行し、クロスアテンションのある通路からの保存状態と組み合わせることができます。この非結合型変換器を用いて、オープンドメインMRCの計算コストを30-40%削減し、SQUAD 2.0ベンチマークのF1スコアをわずか1.2ポイントしか低下させることができました。

我々の貢献は以下の通りです。

オープンドメインQAにおけるMRCのための新しい非結合型変換アプローチを提案し、評価することで、実行時の推論コストを削減します。本手法では、知識蒸留（KD）目的を用いて、標準的な変換器と非結合型変換器の間のギャップを埋める。
MRCや、言い換え識別や自然言語推論などの自然言語処理（NLP）タスクにおいて、入力間の相互注意がどの程度必要なのかを理解するための実験を行います。
また、非結合型変換器のオフライン状態に必要な記憶容量を削減するために、正確な表現の圧縮手法を考案した。この圧縮により、Wikipediaのような大規模コーパスのインデックスストレージの必要量を、3.4TBから858GBへと4倍に減らすことができる。

3 非結合型トランス

図1の非結合型トランスでは、トランスのモデルMを2つのコンポーネントに分割しています。

入力コンポーネントMinput（下位N層）は、入力を独立して処理し、表現を生成します。事前にわかっている入力の表現、つまり通過点の表現は保存され、計算なしで使用される。
1. クロスコンポーネント・マクロス（上位 M 層）：入力を共同で処理し（連結後）、最終的な出力を生成する。

3.1 ワークフロー

ワークフローは，図 2 に示すとおりである．オフラインでは，入力コンポーネントであるMinputを，パッセージの集合から各パッセージに対して実行し，その表現を検索インデックスに格納する．さらに，保存されているパッセージの表現を圧縮して，ストレージ要件を低減します．このオフラインステップは、DPR によるインデックス作成と同時に行われます。実行時には、DPR を使用して候補の文章を検索し、保存されている表現を解凍します。次に、入力コンポーネントである Minput を使用して、質問の表現を計算します。最後に、質問の表現と文章の表現を連結し、クロスコンポーネント Mcross で処理します。

3.2 利点

非結合型変換器は、下位N層における質問ごとの変換器の複雑さを、O(Np(Lq + Lp) 2 )からO(L 2 q + NpL 2p)に減らします。ここで、Npは質問ごとのトップK通路の数を表し、LqとLpは各質問と通路の平均トークン数を表します。実行時には、パッセージの下位N層の計算は、オフラインで一度実行され、再利用されるため、不要となる。さらに、質問に対する下位N層の計算は、質問と上位K個の検索された通路の両方ですべての層を使用する通常の変換器とは対照的に、上位K個の検索された通路に対して一度だけ行われ、繰り返されることはありません。

3.3 初期化

非結合型変換モデルを構築するために、BERT、RoBERTa、ELECTRA モデルなどの標準的な変換モデルを、SQUAD 2.0 などの対象データセットで微調整してから開始します。次に、エンコーダ層を入力コンポーネントとクロスコンポーネントに分割することで、非結合型の変換モデルを作成し、微調整されたMRCモデルの重みで初期化します。標準的な変換器の重みに加えて、クロスコンポーネントの最初にグローバルポジションエンベッディングとセグメントエンベッディングのレイヤーを作成し、入力コンポーネントのローカルポジションエンベッディングとセグメントエンベッディングと同じ重みで初期化します。グローバルポジションエンベッディングとセグメントエンベッディングは、連結された質問-文書エンコーディングシーケンスの新しいポジションのトークンを再エンコーディングします。セグメント埋め込みは、エンコードされたトークンが質問からのものか、文書からのものかを区別します。

3.4 学習目的

非結合型変換器の学習では、標準型変換器のモデル精度を維持することを目的とする。そのために、元の表現を保持するのに役立つ、標準変換器から非結合変換器への知識蒸留（KD）（Hinton et al.2015）目的を提案する。目的関数は、4つの項の合計です。

標準的なクロス・エントロピー(CE)損失で，グランド・トゥルース・ラベルからの予測yとハード・ターゲットを用います．
教師の標準的な変換モデルからのlogitsを用いたKullback-Leibler（KL） divergenceに基づくKD損失。教師と生徒の両方に同じ温度Tでターゲットをスケーリングします。
結合解除されたモデルの最終層の表現と，元のモデルの最終層の表現との間の平均二乗誤差（MSE）．
結合解除されたモデル最終層の多頭式自己注意出力と，標準モデル最終層の多頭式自己注意出力との間のMSE。

パラメータλは、CEロスとKLロスの相対的な貢献度を決定します。そして、σはMSEロスに対する重みである。最終層表現と最終層自己言及に関するMSE損失は、より小さなモデルの蒸留に対するTinyBERT（Jiao et al.、2019）アプローチに似ています。 TinyBERTとは異なり、我々は最終層のみにMSEロスを適用するだけです。 MSEロスの動機は、非結合型トランスの最後の表現を、標準的なトランスの表現と一致させることを目指しているからです。

4 表現の圧縮

オープンドメインQAでは、パッセージの集合は事前に知られています。そこで、非結合型変換器を使って、入力コンポーネントであるMinputを各通路に対してオフラインで実行し、通路表現をインデックスに格納します。大規模なコーパスの場合、表現の保存量はかなりの量になります。 Wikipedia 上の QA の場合、約 3,200 万の通路、通路あたり平均 150 トークン、16 ビット精度の BERT-base モデルの 768 のトークン次元を考慮すると、ストレージ要件は約 3.4TB となります。非結合型変換器の通路表現に必要な記憶容量を削減するために，入力コンポーネントの終わりに圧縮層を，交差コンポーネントの始まりに解凍層を導入しました（図2参照）．圧縮層は，元の次元から圧縮次元への線形投影である。これらの層は，ボトルネックのあるオートエンコーダーに似ています．

4.1 学習手順

圧縮層と伸張層を学習するために、まず、非結合型の変換モデルから始めます。そして、2つのフェーズで学習を行います。

フェーズ1：ランダムに初期化された圧縮層と伸張層を学習し，非結合変換モデル自体を更新することなく，入力-コンポーネント出力表現を再構成する．
フェーズ2．圧縮層と伸張層を，結合解除されたトランスフォーマーと一緒に訓練します．

これは、クロスコンポーネントが圧縮解除された表現を受け取ることを意味します。この2段階のアプローチの背景にある直感は、圧縮層と伸張層はランダムに初期化されるため、まず、最適に近い重みを得るために、非結合型変換器から独立した圧縮層と伸張層を訓練することが有益であるということです。次に，モデルのクロスコンポーネントを訓練して，わずかに異なる解凍された表現を理解する

e4exp / paper_manager_abstract