usersan / papers

読んだ論文のメモ置き場:主にエッジAI、高速化、FPGA実装関連など
0 stars 0 forks source link

SPEED: Speculative Pipelined Execution for Efficient Decoding #50

Open tera1k opened 8 months ago

tera1k commented 8 months ago

0. 論文

https://arxiv.org/abs/2310.12072 https://www.arxiv-vanity.com/papers/2310.12072/

Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Hasan Genc, Kurt Keutzer, Amir Gholami, Sophia Shao

1. どんなもの?

TransformerのDecoder部分をパイプライン処理して速くする?

2. 先行研究と比べてどこがすごい?

Decoder部分は過去のトークンの出力結果を使うので、Encoder部分と違って推論時に並列処理できない。 speculativeに?処理することでパイプライン化する。

3. 技術や手法のキモはどこ?

4. どうやって有効だと検証した?

5. 議論はある?

6. 次に読むべき論文は?

tera1k commented 8 months ago

image 図 1: パラメータ共有を使用した投機的パイプライン実行の方法論の概要

tera1k commented 8 months ago

image

図 (a) は、パラメータ循環共有ありの場合のTransformer Decoder 図 (b) は、パイプラインの一処理 図 (c) は、複数のパイプライン ステージの進行