Veiasai / paper-notebook

0 stars 0 forks source link

Large-scale cluster management at Google with Borg #3

Open Veiasai opened 5 years ago

Veiasai commented 5 years ago

假期里读的一篇paper,描述了Borg怎么做集群管理。 简单易懂,但又没什么干货,不知道怎么做到支持10K这个数量级,这算是一个相当大的集群了。也不知道单点故障怎么转移,尤其是有状态服务。 调度器选择节点时,不会检查所有节点,先随机的选择一些节点,再在这个集合里面找满足条件的节点去 分配任务。 任务是用Paxos一致性存储算法,维护一个任务队列。 Borg是Master/Slave,要支持大量节点,Master的资源需求很大,10~14个cpu core, up to 50 GiB RAM。Master有五个副本,里面会选举leader。