Open gaocegege opened 6 years ago
这是一个对分布式机器学习的一个比较好的入门材料,除此之外
这部分工作比较值得关注
所以 kubeflow 是要被 ms 吊着打了么
可怕
不会啊,他们工作早于 kubeflow,不知道现在怎么样了
再说,谷歌做开源怎么也得比 MS 靠谱吧,MS 推的 infra 层面的东西好像都不是很给力?当然像 VS Code 还是很好的
根据 ppt, 比 kubeflow set up 简单多了
@xplorld 可以,很强势。。
人家没有奇怪的 ksonnet 啥的
:thinking: 也有道理
没看懂怎么实现的,就3个 yaml? 而且里面也没啥奇怪的内容
好像只是把 ps 和 worker 开开了,这有什么工程价值吗
价值在于可配置性,最大的价值在于谷歌用。。
。。。
我问的是 ms 这个工作,看起来只是开了 worker,价值是什么?
初步支持嘛,已经很不简单了
说到底 ml on k8s 的需求是啥啊,怎么样能 formalize 一下
given G gpus, M mems, C cpus, now that there are T tasks of (G,M, C), schedule to achieve least time cost
是这样的吗?看起来很背包
差不多吧,没有最优解,NP 问题
那如果我们就 FIFO 的话,有啥可做的工作啊。。
首先工程难度比较大,其次 FIFO 肯定不行。。。
不 FIFO,意味着有的job 提交了我们不会立即 run?
嗯,是的,还有现在的调度是以 pod 为单位,不是 job
其实需求是 cost saving,跟其他业务混合部署,调度上的需求都是由业务需求产生的
pod = (docker image, env) ?
pod = 1 or more container in one machine
cost saving = no idle GPU?
cost saving = 资源正好够用,但是这不现实,所以就尽可能不让资源闲着
那我就fifo, 岂不是 gpu 就一直 no idle... 虽然可能 cpu, net 啥的会闲着
不会,资源碎片
https://schd.ws/hosted_files/kccncna17/42/Democratizing%20Machine%20Learning%20on%20Kubernetes.pdf
https://github.com/microsoft/DLWorkspace/