AkihikoWatanabe commented 11 months ago

URL

https://arxiv.org/abs/2210.17323
Affiliations
- Elias Frantar, N/A
- Saleh Ashkboos, N/A
- Torsten Hoefler, N/A
- Dan Alistarh, N/A
  Abstract
- Generative Pre-trained Transformer models, known as GPT or OPT, setthemselves apart through breakthrough performance across complex languagemodelling tasks, but also by their extremely high computational and storagecosts. Specifically, due to their massive size, even inference for large,highly-accurate GPT models may require multiple performant GPUs, which limitsthe usability of such models. While there is emerging work on relieving thispressure via model compression, the applicability and performance of existingcompression techniques is limited by the scale and complexity of GPT models. Inthis paper, we address this challenge, and propose GPTQ, a new one-shot weightquantization method based on approximate second-order information, that is bothhighly-accurate and highly-efficient. Specifically, GPTQ can quantize GPTmodels with 175 billion parameters in approximately four GPU hours, reducingthe bitwidth down to 3 or 4 bits per weight, with negligible accuracydegradation relative to the uncompressed baseline. Our method more than doublesthe compression gains relative to previously-proposed one-shot quantizationmethods, preserving accuracy, allowing us for the first time to execute an 175billion-parameter model inside a single GPU for generative inference. Moreover,we also show that our method can still provide reasonable accuracy in theextreme quantization regime, in which weights are quantized to 2-bit or eventernary quantization levels. We show experimentally that these improvements canbe leveraged for end-to-end inference speedups over FP16, of around 3.25x whenusing high-end GPUs (NVIDIA A100) and 4.5x when using more cost-effective ones(NVIDIA A6000). The implementation is available athttps://github.com/IST-DASLab/gptq.
  Translation (by gpt-3.5-turbo)
GPTまたはOPTとして知られるGenerative Pre-trained Transformerモデルは、複雑な言語モデリングタスクでの画期的なパフォーマンスだけでなく、非常に高い計算およびストレージコストでも注目されています。具体的には、その巨大なサイズのため、大規模で高精度なGPTモデルの推論には複数の高性能なGPUが必要となり、このようなモデルの利用性が制限されます。モデルの圧縮によってこの負荷を軽減するための新しい研究が進んでいますが、既存の圧縮技術の適用性とパフォーマンスは、GPTモデルのスケールと複雑さに制約されています。本論文では、この課題に取り組み、近似2次情報に基づく新しいワンショット重み量子化手法であるGPTQを提案します。この手法は、高い精度と高い効率性の両方を備えています。具体的には、GPTQは1750億のパラメータを持つGPTモデルを約4時間のGPU時間で量子化し、重みごとに3ビットまたは4ビットまでビット幅を削減することができます。また、非圧縮のベースラインと比較して無視できる程度の精度低下をもたらします。提案手法は、従来提案されているワンショット量子化手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。これにより、1750億パラメータのモデルを単一のGPUで実行することが初めて可能となります。さらに、提案手法は、重みを2ビットまたは三値量子化レベルに量子化する極端な量子化領域でも、まだ合理的な精度を提供することができることを示しています。実験的に、これらの改善を活用することで、高性能GPU（NVIDIA A100）を使用した場合にはFP16に比べて約3.25倍、よりコスト効果の高いGPU（NVIDIA A6000）を使用した場合には約4.5倍のエンドツーエンドの推論速度向上が実現できることを示しています。実装はhttps://github.com/IST-DASLab/gptqで利用可能です。
Summary (by gpt-3.5-turbo)
本研究では、GPTモデルの推論における計算およびストレージコストの問題に取り組み、新しいワンショット重み量子化手法であるGPTQを提案します。 GPTQは高い精度と効率性を持ち、1750億のパラメータを持つGPTモデルを4時間のGPU時間で量子化することができます。提案手法は従来の手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。さらに、提案手法は極端な量子化領域でも合理的な精度を提供します。実験結果では、提案手法を使用することでエンドツーエンドの推論速度が約3.25倍から4.5倍向上することが示されています。提案手法の実装はhttps://github.com/IST-DASLab/gptqで利用可能です。

AkihikoWatanabe commented 11 months ago

概要

新たなpost-training量子化手法であるGPTQを提案
数時間以内に数千億のパラメータを持つモデルでの実行が可能であり、パラメータごとに3～4ビットまで圧縮するが、精度の大きな損失を伴わない
- OPT-175BおよびBLOOM-176Bを、約4時間のGPU時間で、perplexityのわずかな増加で量子化することができた
数千億のパラメータを持つ非常に高精度な言語モデルを3-4ビットに量子化可能なことを初めて示した
- 先行研究のpost-training手法は、8ビット（Yao et al., 2022; Dettmers et al., 2022）。
- 一方、以前のtraining-basedの手法は、1～2桁小さいモデルのみを対象としていた（Wu et al., 2022）。

AkihikoWatanabe commented 11 months ago

Background

Layer-wise quantization

各linear layerがあるときに、full precisionのoutputを少量のデータセットをネットワークに流したときに、quantized weight W^barを用いてreconstructできるように、squared error lossを最小化する方法。

Optimal Brain quantization (OBQ)

OBQでは equation (1)をWの行に関するsummationとみなす。そして、それぞれの行 w をOBQは独立に扱い、ある一つの重みw_qをquantizeするときに、エラーがw_qのみに基づいていることを補償するために他のwの全てのquantizedされていない重みをupdateする。式で表すと下記のようになり、Fは残りのfull-precision weightの集合を表している。この二つの式を、全てのwの重みがquantizedされるまで繰り返し適用する。

つまり、ある一個の重みをquantizedしたことによる誤差を補うように、他のまだquantizedされていない重みをupdateすることで、次に別の重みをquantizedする際は、最初の重みがquantizedされたことを考慮した重みに対してquantizedすることになる。これを繰り返すことで、quantizedしたことによる誤差を考慮してw全体をアップデートできる、という気持ちだと思う。

この式は高速に計算することができ、medium sizeのモデル（25M parameters; ResNet-50 modelなど）とかであれば、single GPUで1時間でquantizeできる。しかしながら、OBQはO(d_row * d_col^3)であるため、（ここでd_rowはWの行数、d_colはwの列数）、billions of parametersに適用するには計算量が多すぎる。

AkihikoWatanabe commented 11 months ago

Algorithm

Step 1: Arbitrary Order Insight.

通常のOBQは、量子化誤差が最も少ない重みを常に選択して、greedyに重みを更新していく。しかし、パラメータ数が大きなモデルになると、重みを任意の順序で量子化したとしてもそれによる影響は小さいと考えられる。なぜなら、おそらく、大きな個別の誤差を持つ量子化された重みの数が少ないと考えられ、その重みがプロセスのが進むにつれて（アップデートされることで？）相殺されるため。

このため、提案手法は、すべての行の重みを同じ順序で量子化することを目指し、これが通常、最終的な二乗誤差が元の解と同じ結果となることを示す。が、このために2つの課題を乗り越えなければならない。

Step2. Lazy Batch-Updates

Fを更新するときは、各エントリに対してわずかなFLOPを使用して、巨大な行列のすべての要素を更新する必要があります。しかし、このような操作は、現代のGPUの大規模な計算能力を適切に活用することができず、非常に小さいメモリ帯域幅によってボトルネックとなる。

幸いにも、この問題は以下の観察によって解決できる：列iの最終的な四捨五入の決定は、この特定の列で行われた更新にのみ影響され、そのプロセスの時点で後の列への更新は関連がない。これにより、更新を「lazy batch」としてまとめることができ、はるかに効率的なGPUの利用が可能となる。（要は独立して計算できる部分は全部一気に計算してしまって、後で一気にアップデートしますということ）。たとえば、B = 128の列にアルゴリズムを適用し、更新をこれらの列と対応するB × Bブロックの H^-1 に格納する。この戦略は理論的な計算量を削減しないものの、メモリスループットのボトルネックを改善する。これにより、非常に大きなモデルの場合には実際に1桁以上の高速化が提供される。

Step 3: Cholesky Reformulation

行列H_F^-1が不定になることがあり、これがアルゴリズムが残りの重みを誤った方向に更新する原因となり、該当する層に対して悪い量子化を実施してしまうことがある。この現象が発生する確率はモデルのサイズとともに増加することが実際に観察された。これを解決するために、コレスキー分解を活用して解決している（詳細はきちんと読んでいない）。

AkihikoWatanabe commented 11 months ago

実験で用いたCalibration data

GPTQのキャリブレーションデータ全体は、C4データセット(Raffel et al., 2020)からのランダムな2048トークンのセグメント128個で構成される。つまり、ランダムにクロールされたウェブサイトからの抜粋で、一般的なテキストデータを表している。GPTQがタスク固有のデータを一切見ていないため「ゼロショット」な設定でquantizationを実施している。

Language Generationでの評価

WikiText2に対するPerplexityで評価した結果、先行研究であるRTNを大幅にoutperformした。

AkihikoWatanabe / paper_notes

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, arXiv'22 #1043

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

概要

Background

Layer-wise quantization

Optimal Brain quantization (OBQ)

Algorithm

Step 1: Arbitrary Order Insight.

Step2. Lazy Batch-Updates

Step 3: Cholesky Reformulation

実験で用いたCalibration data

Language Generationでの評価