Open yukarinoki opened 1 year ago
GPUを独占するとリアルタイムタスクのエンドツーエンド推論レイテンシは低い(約4ミリ秒)かつ安定していますが、ベストエフォートタスクと並行して実行すると、リアルタイムタスクのテールレイテンシは大幅に増加します(約50ミリ秒まで)
• 冪等性など、GPUによるDNN推論の特性に関する深い理解と、最先端のGPUスケジューリングスキームの問題点(§2)。 • リアルタイムカーネルをGPU上でマイクロ秒内に起動できる新しいリセットベースの事前割り込みスキーム(§4)。 • GPUの大規模な並列性を完全に活用できるように、リアルタイムカーネルをベストエフォートカーネルで動的にパディングできる洗練されたメカニズム(§5)。 • AMDとNVIDIAのGPUの両方での実装(§6)と、REEFの最先端技術に対する優位性と効果を示す評
REEFという推論servingシステムを実装した
実装
https://github.com/SJTU-IPADS/reef