Open tera1k opened 1 year ago
https://arxiv.org/abs/2310.12072 https://www.arxiv-vanity.com/papers/2310.12072/
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Hasan Genc, Kurt Keutzer, Amir Gholami, Sophia Shao
TransformerのDecoder部分をパイプライン処理して速くする?
Decoder部分は過去のトークンの出力結果を使うので、Encoder部分と違って推論時に並列処理できない。 speculativeに?処理することでパイプライン化する。
図 1: パラメータ共有を使用した投機的パイプライン実行の方法論の概要
図 (a) は、パラメータ循環共有ありの場合のTransformer Decoder 図 (b) は、パイプラインの一処理 図 (c) は、複数のパイプライン ステージの進行
0. 論文
https://arxiv.org/abs/2310.12072 https://www.arxiv-vanity.com/papers/2310.12072/
Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Hasan Genc, Kurt Keutzer, Amir Gholami, Sophia Shao
1. どんなもの?
TransformerのDecoder部分をパイプライン処理して速くする?
2. 先行研究と比べてどこがすごい?
Decoder部分は過去のトークンの出力結果を使うので、Encoder部分と違って推論時に並列処理できない。 speculativeに?処理することでパイプライン化する。
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?