yukarinoki / reseach

0 stars 0 forks source link

Microsecond-scale preemption for concurrent {GPU-accelerated}{DNN} inferences #7

Open yukarinoki opened 1 year ago

yukarinoki commented 1 year ago

REEFという推論servingシステムを実装した

実装

https://github.com/SJTU-IPADS/reef

yukarinoki commented 1 year ago

GPUを独占するとリアルタイムタスクのエンドツーエンド推論レイテンシは低い(約4ミリ秒)かつ安定していますが、ベストエフォートタスクと並行して実行すると、リアルタイムタスクのテールレイテンシは大幅に増加します(約50ミリ秒まで)

yukarinoki commented 1 year ago

わからない言葉

yukarinoki commented 1 year ago

• 冪等性など、GPUによるDNN推論の特性に関する深い理解と、最先端のGPUスケジューリングスキームの問題点(§2)。 • リアルタイムカーネルをGPU上でマイクロ秒内に起動できる新しいリセットベースの事前割り込みスキーム(§4)。 • GPUの大規模な並列性を完全に活用できるように、リアルタイムカーネルをベストエフォートカーネルで動的にパディングできる洗練されたメカニズム(§5)。 • AMDとNVIDIAのGPUの両方での実装(§6)と、REEFの最先端技術に対する優位性と効果を示す評