yukarinoki / reseach

0 stars 0 forks source link

Graphene: An IR for Optimized Tensor Computations on GPUs #42

Open yukarinoki opened 2 months ago

yukarinoki commented 2 months ago

https://dl.acm.org/doi/10.1145/3582016.3582018

ASPLOS 2023: Proceedings of the 28th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 3

yukarinoki commented 2 months ago

(3) プログラマーに高レベルの表層言語を公開していますが、高性能なGPUコードの生成という重要な作業は、複雑な組み込みの変換パス(例:Tritonの命令選択[26])によって実行されます。これらのパスの拡張には、本格的なコンパイラに関する深い知識が必要です。

テンソル形状、レイアウト、タイルの新しい表現を導入します。Grapheneのテンソルは、より小さなネストされたテンソルとして表現されるタイルに分解可能です。テンソル要素のレイアウトはメモリ内で連続である必要はなく、GPUテンソル命令に必要な複雑な形状とレイアウトを表現することができます。

GPU計算階層を処理要素のテンソルとして表現するための論理的なスレッドグループを導入します。スレッドをテンソルとして表現することで、データテンソルを操作するのと同じように、スレッドを任意に整形やタイル化することが可能になり、必要なビルトイン階層を最小限に抑えることができます。