Swayam: Distributed Autoscaling to Meet SLAs of MachineLearning Inference Services with Resource Efficiency

这篇文章很早了，Middleware'17 的论文。它和大多数 Serving 系统的论文关注点一样，都是对长尾效应的一个优化。希望能够保证服务的 SLA。

这篇论文的写作让人很舒服，行文流畅。整体架构如图所示，非常简洁。

broker 就是一个 ingress load balancer，而前端是用来分析请求然后路由到真正的后端 serving server 中去的。文章创新的地方主要有三点。

第一点是 Request Rate 的预测，这个基本所有有关 web service 的传统文章都会涉及，各种预测已经被玩出花了，但是真正工业界在用的，基本没听说

第二点是 Backend Resource Estimation Model。这个有点太形式化，面对真正实际环境上的复杂变化，可能不能满足需求。

第三点是 autoscaling，卖点是分布式的，FE 之间不通信。这个最难的要证明分布式的实现不会影响全局的 SLA，这个文章没有给出证明。

整体来看，参考价值不是特别大

dyweb / papers-notebook