fluid-cloudnative / community

Information about the Fluid community.
Apache License 2.0
4 stars 10 forks source link

Add AutoScaling Design Proposal #21

Closed xieydd closed 3 years ago

xieydd commented 3 years ago

Sample Design Proposal for Fluid worker Autoscaling. In this design, i use cache percentage Cluster_CapacityUsed*100 / Cluster_CapacityTotal as metrics value. Pls check: @cheyang @TrafalgarZZZ @lilyzhoupeijie

xieydd commented 3 years ago

Tasks:

cheyang commented 3 years ago

目前不能动态修改目前不能alluxioruntimes的配置文件,此前已经提了issue:fluid-cloudnative/fluid#188 对alluxioruntimes的大多数字段,目前修改后不会触发alluxio集群的更新。 目前alluxioruntimes生命周期有CheckWorkerReady环节,如果runtime的.Spec.Replicas比daemonset的.Status.NumberReady大,会被判断为worker not ready,重新进入到启动worker的逻辑;但是缩容暂时无法实现,需要进行设计与开发。 scaledown慢的原因,我觉得是因为HPA控制器执行缩放操作之前,会记录缩放建议, 控制器会在设定时间内考虑所有的建议信息,并从中选择得分最高的建议,从而平滑伸缩动作。这个值默认是5分钟的。但是这个值是kube-controller-manager的全局配置。修改后会影响整个集群的HPA。k8s 1.18+ v2beta2 API开始支持对单个HPA配置此策略。

目前是可以支持replicas修改触发自动扩容的。@yangyuliufeng