AkihikoWatanabe commented 5 months ago

URL

https://arxiv.org/abs/2104.09864
Affiliations
- Jianlin Su, N/A
- Yu Lu, N/A
- Shengfeng Pan, N/A
- Ahmed Murtadha, N/A
- Bo Wen, N/A
- Yunfeng Liu, N/A
  Abstract
- Position encoding recently has shown effective in the transformerarchitecture. It enables valuable supervision for dependency modeling betweenelements at different positions of the sequence. In this paper, we firstinvestigate various methods to integrate positional information into thelearning process of transformer-based language models. Then, we propose a novelmethod named Rotary Position Embedding(RoPE) to effectively leverage thepositional information. Specifically, the proposed RoPE encodes the absoluteposition with a rotation matrix and meanwhile incorporates the explicitrelative position dependency in self-attention formulation. Notably, RoPEenables valuable properties, including the flexibility of sequence length,decaying inter-token dependency with increasing relative distances, and thecapability of equipping the linear self-attention with relative positionencoding. Finally, we evaluate the enhanced transformer with rotary positionembedding, also called RoFormer, on various long text classification benchmarkdatasets. Our experiments show that it consistently overcomes its alternatives.Furthermore, we provide a theoretical analysis to explain some experimentalresults. RoFormer is already integrated into Huggingface:\url{https://huggingface.co/docs/transformers/model_doc/roformer}.
  Translation (by gpt-3.5-turbo)
最近、位置符号化はtransformerアーキテクチャで効果的であることが示されています。これにより、シーケンスの異なる位置にある要素間の依存関係モデリングに有益な監督が可能になります。本論文では、まず、transformerベースの言語モデルの学習プロセスに位置情報を統合するためのさまざまな方法を調査します。その後、Rotary Position Embedding（RoPE）という新しい手法を提案し、位置情報を効果的に活用します。具体的には、提案されたRoPEは、回転行列で絶対位置を符号化し、同時に明示的な相対位置依存性を自己注意構成に組み込みます。特に、RoPEには、シーケンス長の柔軟性、相対距離の増加に伴うトークン間の依存性の減衰、線形自己注意に相対位置符号化を装備する能力など、有益な特性があります。最後に、Rotary Position Embeddingを使用した強化されたtransformer（RoFormer）を、さまざまな長いテキスト分類ベンチマークデータセットで評価します。実験では、RoFormerが一貫して代替手法を上回ることを示しました。さらに、実験結果の一部を説明するための理論的分析を提供します。RoFormerはすでにHuggingfaceに統合されています：\url{https://huggingface.co/docs/transformers/model_doc/roformer}。
Summary (by gpt-3.5-turbo)
位置符号化はtransformerアーキテクチャで有効であり、本論文ではRotary Position Embedding（RoPE）という新しい手法を提案している。RoPEは、回転行列を使用して絶対位置を符号化し、同時に相対位置依存性を自己注意構成に組み込む。RoPEを使用したRoFormerは、長いテキスト分類ベンチマークデータセットで他の手法を上回ることが実験で示されており、Huggingfaceに統合されている。

AkihikoWatanabe commented 5 months ago

RoPEを提案した論文

AkihikoWatanabe commented 1 month ago

Absolute Position Embedding と Relative Position Embedding

TransformerにおけるQKVベクトルの計算方法

一般に、Transformerにおける Query (Q), Key (K), Value (V) は以下の式で定式化される：

m, nはそれぞれ位置を表す整数。Absolute Position Embeddingと、Relative Position Embeddingは、関数fの設計がそれぞれ異なっている：

Absolute Position Embedding

absolute position embeddingは、固定されたposition ベクトル、あるいはtrainableなposition ベクトル p を、入力ベクトルに対して足し合わせる：

Relative Position Embedding

一方、Relative Position Embeddingは、Queryの位置に対する、Key, Valueの相対位置（つまり、mとnの差）に対して、trainableなベクトルをKey, Valueごとに用意し、そのベクトルを入力に足し合わせる、という定式化となっている：

RoPE

RoPEでは、入力ベクトルに対して回転行列を適用することで、回転に対して位置情報を保持させる：

RoPEは下記のような性質を持つ：

long-term decay: θi = 10000−2i/d と設定することにより、相対位置が離れているトークンのベクトルとのinner productの値が小さくなる。すなわち、位置が離れているトークン間の依存関係が小さくなる。
Linear-Attention: RoPEは回転行列であり、乗算後のベクトルのノルムを変化させない。このため、Linear Attentionの式の中に回転行列を組み込むことで、Linear Attentionと簡単に組み合わせることが可能

Absolute Position Embedding, Relative Position Embeddingでは、ベクトルに対して位置情報を加算する定式化で K, Vの計算時に位置情報を考慮していたため、Linear Attentionの計算そのものに位置情報を組み込んだ定式化とはなっていなかった。が、RoPEでは回転行列を乗算する定式化であり、ノルムを変化させないのでLinear Attentionの定式化に組み込むことができる。このため、モデルのアーキテクチャを大きく変更しなくとも組み込める。

AkihikoWatanabe commented 1 month ago

RoPE自体は実装にパラメータを必要としないが、モデルのその他のパラメータがRoPEに適用できるように学習されていないと適用できないであろう点には注意（事前学習時にRoPEが使われていれば話は別）。

AkihikoWatanabe / paper_notes

RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024 #1310

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

Absolute Position Embedding と Relative Position Embedding

TransformerにおけるQKVベクトルの計算方法

Absolute Position Embedding

Relative Position Embedding

RoPE