[Llama2] Optimize prefill performance

tenstorrent / tt-metal

:metal: TT-NN operator library, and TT-Metalium low level kernel programming model.

Apache License 2.0

424 stars 54 forks source link

Open cglagovich opened 6 months ago

cglagovich commented 6 months ago

High level issue for prefill performance improvements.

cglagovich commented 6 months ago

single layer latency with 8x8 mlp matmuls: 29469281 ns

cglagovich commented 6 months ago

with block-sahrded eltwise mul: 29176066 ns

cglagovich commented 6 months ago

with 8x8 projection matmuls: 28052277 ns

cglagovich commented 6 months ago

with 8x8 rms @ 256 chunk size: 27283850 ns

cglagovich commented 6 months ago

with 8x8 rms @ 512 chunk size: 27160413 ns

cglagovich commented 6 months ago

1024 chunk size OOM

cglagovich commented 6 months ago

8x8 spda @ chunk size 256: 25084698 ns

cglagovich commented 6 months ago

sdpa chunk size 512 OOM

cglagovich commented 6 months ago

fyi @johanna-rock-tt