e4exp / paper_manager_abstract

0 stars 0 forks source link

On Position Embeddings in BERT #663

Open e4exp opened 3 years ago

e4exp commented 3 years ago

概要:

Transformer based architectures(BERTなど)において、単語の順序をモデル化するために、様々なPosition Embeddings(PE)が提案されています。 これらは経験に基づいており、良い性能を発揮しますが、それらを体系的に研究するための正式なフレームワークは存在しません。 この問題を解決するために、ベクトル空間における単語の距離を捉えるPEの3つの特性、すなわち、翻訳不変性、単調性、対称性を提示します。 これらの性質は、PEの振る舞いを形式的に捉え、正弦波PEを原理的に再解釈することを可能にする。

さらに、上記の特性に関連した一般的な注意パターンを定量的に検出するために、新しいプロービングテスト(「同一の単語プロービング」と呼ばれる)と数学的指標を提案する。 分類(GLUE)とスパン予測(SQuAD)のための7つのPE(およびその組み合わせ)の経験的な評価により、以下のことが明らかになった。

(1)分類とスパン予測の両方において、翻訳不変性と局所的な単調性が有効であるが、対称性は性能をわずかに低下させる。 (2) 分類では完全学習可能な絶対値PEが、スパン予測では相対値PEが、それぞれ優れた性能を発揮する。

本論文では、PEの望ましい性質を初めて正式かつ定量的に分析し、下流の典型的なタスクの性能との相関について原理的な議論を行った。

e4exp commented 3 years ago

1 INTRODUCTION

位置エンベディング(PE)は、Transformerベースのアーキテクチャにおいて、単語の順序を捉えるために非常に重要であり、それがなければ、表現はbag-of-wordsとなる。 完全に学習可能な絶対位置埋め込み(APE)は、Gehringら(2017)によって、Convolutional Seq2seqアーキテクチャで単語の位置を捉えるために初めて提案された。 また、Transformerを用いて正弦波関数を使用し、PEを固定的にアドホックにパラメータ化した(Vaswani et al. 最近では、Shawら(2018)が機械翻訳のためにTransformerとともに相対位置埋め込み(RPE)を使用した。 さらに最近では、Transformerの事前学習された言語モデルにおいて、BERT(Devlin et al., 2018; Liu et al., 2019)とGPT(Radford et al., 2018)が完全に学習可能なPEを使用した。 Yangら(2019)はRPEを修正して、XLNet事前学習言語モデルで使用した。 我々の知る限り、様々なPEの根本的な違いは原理的な方法で研究されていない。

我々は、PEの目的は、ベクトル空間における位置の順序性を捉えること、あるいは技術的には、N(位置について)とR^D(位置ベクトルについて)の距離を橋渡しすることであると仮定する。 そこで我々は、PEに期待される3つの性質、すなわち単調性、並進不変性、対称性を提案する1 。

非公式には、位置がもともと正の整数であることから、ベクトル空間の位置ベクトルは次のような性質を持つと考えられます。 1) 隣り合った位置は、遠くの位置よりも近くに埋め込まれる。 2) 任意のmオフセットした2つの位置ベクトルの距離は同一である。 3) 計量(距離)自体が対称である。

これらの特性を用いて、既存のPEを正式に再解釈し、正弦波PE(Vaswani et al., 2017)の限界を示す: 単調性の特性を適応的に満たすことができない-したがって、学習可能な正弦波PEを提案する。

GLUEとSQuADにおいて、13個のPE(APE、RPE、およびそれらの組み合わせを含む)を、合計11個の個別タスクでベンチマークする。 翻訳不変性、単調性、対称性を定量的に測定するためにいくつかの指標を考案し、それらを用いて下流のタスクにおける経験的なパフォーマンスとの統計的な相関関係を計算することができる。 経験的には、テキスト分類タスク(GLUE)とスパン予測タスク(SQuAD V1.0とV2.0)の両方で、単調性(近くのオフセット)と翻訳不変性(特に[CLS]のような特殊なトークンを考慮しない)の恩恵を受けることができますが、対称性は、注目度を計算する際に、クエリベクトルとキーベクトルの間の方向性を扱うことができないため、パフォーマンスを低下させます。 さらに、方向性に関してアンバランスな注意を持つモデル(一般的に、先行するトークンを後続のトークンよりも多く注意する)は、(特にスパン予測タスクにおいて)わずかながら性能向上と相関があります。

また、実験によると、完全学習可能なAPEは分類において、RPEはスパン予測タスクにおいて、より良いパフォーマンスを発揮することがわかった。 これは、我々が提案する特性によって、以下のように説明される。 RPE は翻訳不変性、単調性、非対称性に優れているため、スパン予測タスクで優れた性能を発揮する。 完全学習可能な APE は、パラメータ化の際に翻訳不変性と単調性の特性を厳密には持っていないが(他の APE やすべての RPE よりも翻訳不変性と局所単調性の測定結果が悪いため)、特殊なトークン(特に unshiftable [CLS])に柔軟に対応できるため、優れた性能を発揮する。 新たに提案された学習可能な正弦波PEに関しては、学習可能な正弦波APEは、他のAPEのバリエーションよりも3つの特性をより多く満たしており、学習可能な正弦波RPEは、他のPEのバリエーションよりも優れた方向認識を示しています。

実験によると、正弦波 APE を用いた BERT は、スパン予測において完全に学習可能な APE をわずかに上回っているが、分類タスクにおいては下回っている。 APE および RPE の両方において、正弦波 PE の学習周波数は有益であると思われる。 最後に、正弦波PEは、完全に学習可能なAPEとは異なり、翻訳不変特性を完全に満たすため、より長い文書を扱うために一般化することができる。

本論文の貢献は以下のようにまとめられる。 1) PEのための3つの原則的な特性を提案する。これらの特性は、新規のIdentical Word Probingテストにおいて、形式的に検討されるか、定量的な指標によって経験的に評価される。 2) 13個のPE(APE、RPEおよびそれらの組み合わせを含む)を、GLUE、SQuAD V1.1およびSQuAD V2.0において、合計11個の個別タスクでベンチマークする。 3) 個々のタスクにおけるパフォーマンスが、上記の特性からどのように恩恵を受けるかを実験的に評価する。

e4exp commented 3 years ago

2 PROPERTIES OF POSITION EMBEDDINGS

Gehring et al. (2017); Vaswani et al. (2017) は、ニューラルネットワークにおける追加の特徴として、単語の絶対的な位置を使用しています。 位置x∈Nは、あるユークリッド空間における要素~ x∈R^Dとしてのxの埋め込みとして分配的に表現される。 表現学習の標準的な方法では、埋め込まれたオブジェクト~ xと~ yの間の類似性は、通常、内積< ~ x, ~ y>で表され、例えば、ドット積は、~ xと~ yの間の通常の余弦類似性を生じさせる。 一般的に、テキストの中で単語が互いに近くに現れた場合(すなわち、それらの位置が近い場合)、それらが離れていた場合よりも、一緒に(ローカルな)セマンティクスを決定する可能性が高くなります。 したがって、単語xとyの位置の近さは、それらの埋め込まれた表現~xと~yの近さにつながるはずです。 このことを形式化する一般的な方法として、埋め込みは位置間の距離の順序を保持すべきであるというものがある2 ここでは、埋め込まれた位置間の近さ/近接性を計算する関数をφ(-, -)とし、任意の内積は、良好な特性を持つφ(-, -)の特別なケースとなり得る。 距離の順序の保存を次のように表現することができる。すべてのx, y, z∈Nについて

image

なお、基礎となる空間では、式(1)の性質は、アルゴリズム(Bilu & Linial, 2005; Badoiu et al., 2008; Maehara, 2013)と機械学習(Terada & Luxburg, 2014; Jain et al., 2016)の両方で、ordinal embeddingという名前で約60年前から研究されている(Shepard, 1962)。 我々はNからの位置の単純なケースに興味があるので、Eq. (1)は以下の性質に還元されます。

特性1. 単調性。

埋め込まれた位置の近さは、位置が離れれば離れるほど減少する。

image

先験的には、位置埋め込みはすべての要素Nを個別に扱うかもしれない。 しかし、位置の絶対値ではなく、相対的な近さに基づいて位置のペアを考慮することで、単純で効率的な位置の埋め込みが可能となる(Wang et al., 2020)。 このようなエンベッディングは、翻訳不変性

特性2. 翻訳不変。

埋め込み位置の近さは翻訳に影響されない image

最後に、内積が対称であることから、φ(-, -)が対称であるかどうかも検討します。

特性3. 左右対称であること

埋め込み位置の近さは対称的である。

image

上述のような先行研究に基づき、我々は上記の特性が重要であると仮定し、既存のいくつかのPEをこれらの特性との関連で、形式的(第3節)または経験的(第4節)に検証する。

e4exp commented 3 years ago

3 UNDERSTANDING PES VIA THE PROPERTIES

PEには、単一の位置が表現空間の要素にマッピングされる絶対的PE(APE)と、位置の差(すなわち、x、y∈Nのx-y)が埋め込み空間の要素にマッピングされる相対的PE(RPE)の2つの種類があります。 Transformerベースのアーキテクチャの場合、APEとRPEの違いは、注目メカニズム、特にクエリ、キー、値の重みの行列WQ、WK、WVが各注目ヘッドで注目度を計算するためにどのように使用されるかという点に現れます。 2つの位置x, y∈Nを考え、位置xの単語の埋め込みをWExとし、位置xと相対位置x - yの埋め込みをそれぞれPx, Px-yとする。 位置xにある単語のクエリ・キー・バリュー・ベクトルは、典型的には、APEとRPEについてそれぞれ以下のように計算される。

image

APE の計算が単語と位置の埋め込みを係数に統合した (WQ, W K, WV ) の線形であるのに対し、RPEs の計算は、相対的な位置の埋め込み Px-y が単語の埋め込み WEx とは独立したオフセットとして作用するアフィンであることに注目してほしい。 トランスフォーマーでは、結果として得られる表現は、A = QKT に依存した重みを持つ値ベクトルの合計であり、すなわち、Attention(Q, K, V ) = softmax(QKT / √ dk)V である。 本論文の残りの部分では、セクション2で紹介した特性に関して、上記のアーキテクチャのPEを検証します。 特に、PEの4つのよく知られたバリエーションを研究する。

(1)完全に学習可能なAPE(Gehringら、2017年)、 (2)固定正弦波APE(Vaswaniら、2017年)、 (3)完全に学習可能なRPE(Shawら、2018年)、 (4)固定正弦波RPE(Weiら、2019年)。

e4exp commented 3 years ago

3.1 SINUSOIDAL PESの理解

PEに正弦波のパラメタライズがあれば、PEの正弦波の形が上記の特性を満たしているかどうかを確認するために、特定の近接性、すなわち、ドット積のような効率的な内積を使用することができます。 任意の2つの位置ベクトル間のドットプロダクトは

image

なお、正弦波PEは、内積が位置の差x-yのみに関連するため、特性2(並進不変)と、ドット積自体が対称であるため、特性3(対称性)の両方を満たしています:<~ x, ~ y> = <~ y, ~ x>。 また、プロパティ1をチェックすることは、マップψ(m) = sum^{D/2}_{i=1} cos(ωi m)の単調性をチェックすることと同等であることに注意してください。 ψ(m)は、その一次導関数ψ' (m) = sum^{D/2}{i=1} -ωi sin(ωim)が符号を変えない区間では単調であり、これらの区間はωiの選択に依存する。 固定周波数のωi = (1/10000)^{2_i / D}の場合、mがほぼ0〜50の間にあるときに単調になることから、最大50までの距離しか厳密には認識できず、50よりも長い距離などの遠距離には鈍感であることがわかる。

APEやRPEでは周波数が固定された正弦波PE(ωi = (1/10000)^{2i/D})が一般的ですが、このような周波数を学習することは、単調さの間隔を適応的に調整できるので有用であると主張します(固定された正弦波APEのように0〜50である必要はありません)4。 学習可能な周波数があれば、データドリブンな方法で適応的に多くの周波数を割り当てることができます。 App. A.2では,訓練可能な周波数を持つ正弦波PEの表現力を,フーリエ級数の観点から説明しています。 既存の固定正弦波PEを、学習可能な周波数を持つ学習可能なバージョンに拡張すると、学習可能な正弦波APE学習可能な正弦波RPEの2つのバリエーションが得られます。

3.2 RPEの理解

RPEsは、単語の絶対位置を無視して、その相対距離を直接符号化する。 RPEsの表現は、同じオフセットを持つ相対的な距離が同じ埋め込みとして埋め込まれるため、パラメータ化の際の翻訳不変性の特性に従っています。すなわち、x1 -y1 = x2 -y2 であれば、P{x1-y1} = P{x2-y2} となる。 さらに、前方と後方の相対的なエンベッディングを別々に埋め込むRPE、すなわちP{i-j} != P{j-i}は、パラメータ化の際に対称性を満たさない。 また,正弦波RPEは,正弦波APEと同様に,局所的な単調性を持つ近接ベクトルに隣接する相対位置を埋め込むことができる. 正負の相対位置ベクトルを区別することなく、同じオフセットを持つ2つの正弦波相対位置ベクトル間のドットプロダクトは、同一でなければならないことに注意してください5 。 これにより、前後の相対位置ベクトルの境目がほとんどわからなくなります。

e4exp commented 3 years ago

4 事前に訓練された言語モデルにおける PE の特性の検証

表 1 に示す 6 つの基本的な PE とそれらの組み合わせのバリエーションを用いて BERT を訓練し、それらの PE がどの程度特性を満たしているかを確認するプロービングテストを行う。

事前学習

事前学習した「BERT-base-uncased」チェックポイント(Devlin et al.2018)を使用して、元の絶対的なPEモジュールを新しいPEバリアント(APEとRPEを含む)に置き換えて学習します。 新しいモデルを、シーケンス長128で5回のエポックを行い、その後512でさらに2回のエポックを行ってトレーニングします。 訓練は、元の BERT と同じであり、すなわち、全単語マスキングを用いた BooksCorpus および Wikipedia(16G の生文書)である。 公平を期すために、元の完全学習可能な APE を用いた BERT も、同じ方法でさらに学習される。 すべてのモデルには、典型的な基本設定に対応する約 110M のパラメータがありますが、table1 のパラ メータ化によってのみ若干の違いがあります。

image

4.1 位置ベクトル間の点積

APE

APE と RPE について,任意の 2 つの位置ベクトル間の点積を計算する(図 1 参照). APEの場合、隣り合う位置ベクトルは一般的に遠くにあるものに比べて近い。 この傾向は、学習可能な正弦波APEではより明確であり、PEには厳密な正弦波の正則化を課している。 なお、図1(a)と図1(b)、図1(c)と図1(d)を比較するとわかるように、RPEを追加で採用しても、PEのパターンにはあまり影響がないことがわかります。

RPE

完全に学習可能なRPEの設定では、1(e)と1(f)の縦と横の明るい帯は、オフセットの小さい相対位置ベクトル(例えば、{P-5, - - , P0, - - P5})が他の相対位置ベクトルと顕著に異なることを示しており、オフセットの小さい相対位置ベクトルが遠くの相対位置ベクトルよりも区別しやすいことを示している。 1(e)と1(f)の4つの暗いコーナーは、20よりもオフセットの長い相対位置ベクトル、つまり-64から-20と20から64が非常に近いことを意味しており、完全に学習可能なRPEが遠くのRPEを大きく区別していないことを示しています。 このことは、RPEを一定の距離(例えば、(Shaw et al., 2018)では64)に切り詰めることが合理的であることを示唆している。 この効果はApp.Dでさらに説明しています

image

4.2 IDENTICAL WORD PROBING

APEでは、注目行列(A = softmax(QKT ))は、個々の単語とその位置に関連しており、第1層の(非活性化)Aの要素は次のように与えられる。

image

PE の同一単語プロービング 個々の単語を考慮せずに、A の PE のみの効果を調べるために、同一単語プロービングフィードを使用して、多数の繰り返し同一の単語(任意でよい、w¯と表記)を文として BERT に送り、注意値 A¯(1)を確認する.各要素は

image

ランダムに選択された多くの単語w¯に対するA¯(1)の平均を取るので、A¯(1)の一般的なパターンは特定の単語に影響されません。 つまり、A¯(1)は単語を含まず、学習したPEにのみ関連しています。 したがって、A¯(1)は一般的な注意バイアスとして扱うことができ、Transformersの位置的近接性を暗黙的に伝えることもできます。 なお、プロービングテストはRPEにも適用可能である。

4.2.1 QUALITATIVE ANALYSIS

図2は、第1層のすべてのヘッドの平均注目度を示しています。 PE なしの BERT は、ほぼすべての単語を一様に扱う(bag-of-words)。 ほとんどすべての APE および RPE は、翻訳不変性、隣接する窓における局所的な単調性、および対称性の明確なパ ターンを有する。 完全に学習可能な APE/RPE には特定の制約やプライアが課されていないため、これは自明ではないことに注意してください。

APE を用いた BERT は、図 2(b)および図 2(c)がほぼ対称であるため、方向性を意識していない。 図 2(f,h)からわかるように、学習可能な正弦波 RPE を用いた BERT は、一般的に後方のトークンよりも前方のトークンに多く注目しており、これは完全に学習可能な RPE および固定の正弦波 RPE では明確に見られない。 興味深いことに、図2(d、f、g)の対角線に沿った白い帯は、以前に(Clark et al.、2019)8で観察されたように、いくつかの単語は一般的に自分自身にアテンドしないことを示唆している。

image

4.2.2 QUANTITATIVE ANALYSIS

Eq.8 9の活性化された注意値A¯(1)を用いて、個々のPEを持つBERTモデルがTable 2の3つの特性とその派生指標(これらの指標の計算の詳細についてはApp.Bを参照)をどの程度満たすかを測定するために、3つの定量的な指標を採用する。 基本的に、すべての APE および RPE は、PE なしの BERT と比較して、小 さなオフセットにおける単調性および並進不変性を満たしており、すべての PE は、学習可能な正弦波 RPE およびその組み合わせを除き、対称性をほぼ満たしている。

APE および RPE

学習可能な正弦波 APE は、完全に学習可能な APE および固定された正弦波 APE よりも、3 つの特性すべてをよく満たしている。 これは、正弦波のパラメータ化および柔軟な周波数によるものである。 RPEは,パラメータ化の際に並進不変性を直接満たすため,APEよりも高いレベルで並進不変性を満たしている。 最後の列では,固定のsinを除くすべてのPEの方向バランス値を示している.APE が 1 より大きいことから、すべての PE を持つ BERT モデルは、一般的に、後続するトークンよりも先行するトークンに注目し、この現象は、他よりも学習可能な正弦波 RPE においてより強いようである。

完全に学習可能な APE と [CLS]

完全に学習可能な APE は、常に最初の位置にあるシフト不可能な [CLS] を処理しなければならないため、一般的に翻訳不変性において悪い結果となります(4 列目を参照)。 しかし,[CLS]と[SEP]を考慮しない場合(5段目参照),完全学習可能APEは他のAPEよりも優れた翻訳不変性を満たしており,完全学習可能APEは特殊なトークンと通常の位置の両方に柔軟に対応できることがわかる. また,単調性特性においても,特殊なトークンと正常な位置の不一致を扱うことができた。

image

e4exp commented 3 years ago

5 PES IN DOWNSTREAM TASKS

分類タスクとスパン予測タスクにおけるPEの性能を実証的に比較する。 Fine-tuning GLUEとSQuADでの微調整は、Wolf et al.(2019)によるHuggingfaceのウェブサイトと同じで、App. Eで詳細を説明しています。 データセットごとに5回の実行の平均値を報告します。 分類については,単一文書分類と文ペア分類の両方のデータセットを含むGLUE (Wang et al., 2018) ベンチマークを使用しています。 スパン予測には、100kのcrowdsourced question/answer pairs (Rajpurkar et al., 2016)からなるSQuAD V1.1とV2.0のデータセットを使用します。 質問と、その答えを含むWikipediaの一節が与えられた場合、その一節の中の答えのテキストスパンを予測するというタスクです。 V2.0では、クラウドワーカーによって逆に書かれた50,000の答えられない質問が追加されているため、通路に短い答えが存在しない可能性があります(Rajpurkar et al.2018)。

5.1 ダウンストリーム・タスクの実験結果

GLUE

Tab. 3は、完全に学習可能なAPE(別名、BERT式APE)がGLUEで良好な性能を示すことを示しています。 APE または RPE のみを使用する BERT をはじめ、どの PE も完全に学習可能な APE を顕著に上回っています。 APEとRPEを組み合わせたBRRTモデルは、APEまたはRPEのみを用いたモデルの性能を必ずしも向上させない。

SQuAD

Tab. 4は、RPEを備えたほぼすべてのBERTモデルが、完全に学習可能なAPEを大幅に上回っていることを示しています。 学習可能な正弦波 APE は、ほとんどの場合、完全に学習可能な APE よりもわずかに優れています。 SQuAD V1.1 および V2.0 の最も優れたモデルは、いずれも完全に学習可能な RPE を採用しています。 Tab.2に示すように、完全学習可能なAPEは、通常の位置にある[CLS]と翻訳不変性を柔軟に扱うことができるため、推論にシフト不能な[CLS]トークンに大きく依存する分類タスク(GLUE)で良好な性能を発揮します。 CLS]から推論しないスパン予測タスクでは、パラメータ化の際に厳密な翻訳不変性を利用することができます(例:正弦波のAPEやRPE)。 SQuAD の性能と翻訳不変性の特性の相関関係については、6.1 節の Tab.5 を参照してください。 PE を削除すると(PE なしの BERT)、SQuAD V1.1 および V2.0 のパフォーマンスが劇的に低下し、GLUE のパフォーマンスがわずかに損なわれることから、PE は GLUE よりも SQuAD でより重要であることがわかります。

学習可能な正弦波PE

正弦波APEは、スパン予測では完全に学習可能なAPEよりも性能が高いが、分類タスクでは劣っている。 学習可能な正弦波APE/RPEは、固定の正弦波APE/RPEをGLUEとSQuADsで上回り、柔軟な周波数の表現力を示しています。

APEとRPEの相補性

SQuADでは、APEとRPEを共同で採用することで、場合によっては性能が若干向上します。 例えば、学習可能な正弦波APE + APE + 完全なRPEを用いたBERTは、両方のSQuADにおいて最高のEMスコアを達成しています。 しかし、この補完効果はGLUEでは比較的弱く、完全に学習可能なAPEが強い性能を発揮します。

image

image

e4exp commented 3 years ago

6 pesに関する考察

6.1 特性と個々のタスクとの相関関係は?

表5に示すように、特性と個々のタスク11のパフォーマンスの相関分析を行います。5. その結果、比較的小さなオフセット(例えば、20)での単調性や並進不変性の違反は、GLUEやSQuADのパフォーマンスと負の相関があるため、有害であることがわかりました。 しかし、対称性(および方向バランス)に違反することは、わずかに有益です。

これは、多くのタスクで、BERTモデルが先行するトークンと後続するトークンを区別すること、特に先行するトークンにより多く注目することを必要とすることを示しています。 App.Cの図5bを参照してください。 Cの図5bを参照すると、方向バランス指標と下流タスクの性能の相関は、指標を計算するために数個の隣り合うトークンのみを考慮する場合、はるかに高くなる。

6.2 提案された PROPERTIES に関するその他の考察

単調性

単調性は、すべての PE 変異体について、小さな隣接ウィンドウ(通常、5~20 オフセット)で局所的に保 持される(図 2 参照)。 これは、BERTモデルが一般的に長距離の出席パターンに敏感ではないことを示しており、また、下流タスクの性能は、長いオフセットよりも中距離のオフセット(例えば、表5の2行目の20)における単調性とより高い相関があるという事実によっても証明されている(App.C参照)。 単調性の確認は、個々のタスクにおける学習可能な正弦波APEの学習頻度を参考にしてください。 A.3

翻訳不変性

BERTでは、 (1)2番目のセグメントの絶対位置が最初の文の長さに依存すること、 (2)文が予想される最大長を超えた場合に、単語が先頭または末尾でランダムに切り捨てられ、すべてのトークンの絶対位置が予想外のオフセットでシフトする可能性があることから、単語の絶対位置は情報にならないと主張する(Devlin et al.2018)。

つまり、学習済みの言語モデルにおける単語の絶対位置は任意に置き換え可能であり、そのためTranslation invarianceを採用することは一般的に合理的である。 厳密なTranslation invarianceを採用したモデル(すべてのRPEと正弦波APE)は、PEを事前学習段階で使用した文書よりも長い文書に自然に汎化させますが、いくつかの経験的な証拠についてはApp.Fを参照のこと。

対称性

対称的な APE(特に正弦波 APE)は、図 2 に示すように、方向を区別せずに対称的なパターンを表現する。 式7からわかるように、線形変換されたクエリベクトルとキーベクトルの2つで方向をモデル化することは自明ではない。 このため、方向に敏感なダウンストリームタスクでの性能が制限される。 RPEは、前方と後方の相対的な埋め込みを別々に行っているため(Tab.1参照)、方向知覚においてより良い動作をする可能性がある。 特に、学習可能な正弦波RPEやそれを含む組み合わせのバリエーションは、図2(f)と(h)に示すように、より不均衡なアテンディングパターンを持つ(Tab.2の最後の列参照)。