A Survey on Efficient Training of Transformers

nogawanogawa commented 11 months ago

論文URL

https://arxiv.org/abs/2302.01107

著者

Bohan Zhuang, Jing Liu, Zizheng Pan, Haoyu He, Yuetian Weng, Chunhua Shen

会議

IJCAI 2023 survey track

背景

最近のTransformerは大きな計算リソースが要求される。

計算量の観点では、モデルの大規模化によって消費電力等が増大している。またモデルサイズの大規模化に伴い、要求するメモリサイズも指数関数的に増大する。

計算量とメモリリソースを効率的に使用することにより、Transformerの学習を低コスト・高精度で行う事ができるはずである。

目的

Transformerの学習における計算量・メモリリソースの効率化

アプローチ

効率化する際のテクニックをサーベイ

調査概要

学習効率は大きく3つのカテゴリに分解でき、それぞれについて調査している。

学習効率化
- 計算効率化
- メモリ効率化
- ハードウェア・アルゴリズム協調設計

ひとことメモ

nogawanogawa commented 11 months ago

背景

最近のTransformerは計算リソースを要求する。

計算量の観点では、モデルの大規模化によって消費電力等が増大している。またモデルサイズの大規模化に伴い、要求するメモリサイズも指数関数的に増大する。

計算量とメモリリソースを効率的に使用することにより、Transformerの学習を低コスト・高精度で行う事ができるはずである。

nogawanogawa commented 11 months ago

目的

Transformerの学習における計算量・メモリリソースの効率化

アプローチ

効率化する際のテクニックをサーベイ

nogawanogawa commented 11 months ago

調査概要

学習効率は大きく3つのカテゴリに分解できる

学習効率化
- 計算効率化
- メモリ効率化
- ハードウェア・アルゴリズム協調設計

nogawanogawa commented 11 months ago

学習効率化

Optimization

Optimizer

現状、Adam/AdamWが広く使用されている。

Lion
- 一次勾配で運動量のみをトラッキング、符号方向のみを考慮し、大きさはパラメータで一定にしたもの
- シンプルな構造だが、AdamWよりも収束が速く、メモリ効率と精度が高かったらしい
Sharpness-aware minimization
- より平坦な最小値を見つけるようにすることで、汎化性能を上げる

Initialization

あんま良くわからんかった

Fixup
- T-Fixup : transformers用にカスタマイズされてるらしい

Sparse training

（全くわからん）

Overparameterization

（全くわからん）

Large batch training

基本的にバッチサイズを大きくすると計算は高速化する。ただ大きなバッチ学習は確率的勾配推定値の分散を減少させるので、ちょうどいいサイズが望ましいらしい。

SGD -> LARS
Adam -> LAMB

みたいな手法があるらしい。

Incremental learning

元の困難な最適化問題を、最適化しやすいサブ問題のつなぎ合わせに変換することで学習を効率化する

例
- BERTの事前学習時に、小さなレイヤから学習を始め、少しずつレイヤ数を増やしていく

Data Selection

Token masking

MLM
- 例: エンコーダとデコーダを共同で事前学習する一方、デコーダではマスクされたトークンを除去してメモリと計算コストを節約
MIM
- (あんまり詳しくない)エンコーダの前にマスクされた画像パッチを除去

Importance sampling

分散削減の恩恵を受けながら、有益な学習例を優先する勾配ノルム（gradient norm）の使用が主流。

nogawanogawa commented 11 months ago

メモリ効率化

Parallelism

Data並列とModel並列の手段があるらしい

Data並列
- DPのスケーラビリティ向上
- Albertっぽく、transformerブロックの重みの共有
- ZeRO
Model並列
- モデルのサブグラフを複数のワーカーに割り当てる（？）
- 更にTensor 並列・Pipeline並列ってのと組み合わせるとメモリ効率が良くなるらしい…

Quantized training

標準的なNNではFP32を使用しているが、FP16やFP8を使用することで効率化する

AMP
- 自動混合精度学習

Rematerialization and offloading

Rematerialization
- 前方パスの間だけ活性度/重みの一部を保存し、後方パスの間に残りを再計算（よくわかってない）
Offload
- CPUとGPUを連携して学習を行う
- 例: fp32パラメータ更新をCPU上で計算し、fp16パラメータはGPU上に保持され前方および後方計算はGPU上で行う

Parameter-efficient tuning

あんま知らない領域なので省略

nogawanogawa commented 11 months ago

ハードウェア・アルゴリズム協調設計

Sparse matrix multiplication

Transformerの計算オーバーヘッドを削減するために、疎行列と密行列を乗算するスパース一般行列乗算（SpGEMM）が使用されるケースがある。（不規則な計算になるため、GPUとは相性が悪いのでFPGAやASICと組み合わせる）

OuterSPACE
- 乗算と集約を分離することで効率利用
ViTCoD
- 学習可能なAutoencoderを使用して、sparseなattentionを圧縮

Hardware-aware low-precision

計算の精度を下げることでメモリ量と計算量を削減できる

Sanger
- 4bitのクエリとキーを使用してsparse なattention matrixを作成している
DOTA
- tokenレベルの out-of-order 実行を組み込む

Efficient attention

軽量なアテンションを使用する研究も進んでいる

A3
- クエリと類似性の高いキーのみを選択
ELSA
- ハッシュ類似度を使用して特定のクエリに無関係なキーをフィルタリング

nogawanogawa / paper_memo