SPEED: Speculative Pipelined Execution for Efficient Decoding - Githubissues

usersan / papers

読んだ論文のメモ置き場：主にエッジAI、高速化、FPGA実装関連など

0 stars 0 forks source link

SPEED: Speculative Pipelined Execution for Efficient Decoding #50

Open tera1k opened 8 months ago

tera1k commented 8 months ago

0. 論文

https://arxiv.org/abs/2310.12072 https://www.arxiv-vanity.com/papers/2310.12072/

Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Hasan Genc, Kurt Keutzer, Amir Gholami, Sophia Shao

1. どんなもの？

TransformerのDecoder部分をパイプライン処理して速くする？

2. 先行研究と比べてどこがすごい？

Decoder部分は過去のトークンの出力結果を使うので、Encoder部分と違って推論時に並列処理できない。 speculativeに？処理することでパイプライン化する。

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

tera1k commented 8 months ago

図 1: パラメータ共有を使用した投機的パイプライン実行の方法論の概要

図 (a) ：投機的な値を使用して後のトークンを開始する方法と、誤った予測を後で修正する方法
図 (b) ：パイプライン推論によりシーケンスの長さの次元全体で並列処理
図 (c) ：SPEEDがパラメータ共有によりシーケンス長次元全体でメモリ操作をどのように処理するか

tera1k commented 8 months ago

図 (a) は、パラメータ循環共有ありの場合のTransformer Decoder 図 (b) は、パイプラインの一処理図 (c) は、複数のパイプラインステージの進行