dyweb / papers-notebook

:page_facing_up: :cn: :page_with_curl: 论文阅读笔记(分布式系统、虚拟化、机器学习)Papers Notebook (Distributed System, Virtualization, Machine Learning)
https://github.com/dyweb/papers-notebook/issues?utf8=%E2%9C%93&q=is%3Aissue+is%3Aopen+-label%3ATODO-%E6%9C%AA%E8%AF%BB
Apache License 2.0
2.14k stars 250 forks source link

Democratizing Machine Learning on Kubernetes #66

Open gaocegege opened 6 years ago

gaocegege commented 6 years ago

https://schd.ws/hosted_files/kccncna17/42/Democratizing%20Machine%20Learning%20on%20Kubernetes.pdf

https://github.com/microsoft/DLWorkspace/

gaocegege commented 6 years ago

这是一个对分布式机器学习的一个比较好的入门材料,除此之外

screenshot from 2018-04-08 16-35-33

这部分工作比较值得关注

at15 commented 6 years ago

所以 kubeflow 是要被 ms 吊着打了么

xplorld commented 6 years ago

可怕

gaocegege commented 6 years ago

不会啊,他们工作早于 kubeflow,不知道现在怎么样了

gaocegege commented 6 years ago

再说,谷歌做开源怎么也得比 MS 靠谱吧,MS 推的 infra 层面的东西好像都不是很给力?当然像 VS Code 还是很好的

xplorld commented 6 years ago

根据 ppt, 比 kubeflow set up 简单多了

gaocegege commented 6 years ago

@xplorld 可以,很强势。。

xplorld commented 6 years ago

人家没有奇怪的 ksonnet 啥的

gaocegege commented 6 years ago

:thinking: 也有道理

xplorld commented 6 years ago

没看懂怎么实现的,就3个 yaml? 而且里面也没啥奇怪的内容

xplorld commented 6 years ago

好像只是把 ps 和 worker 开开了,这有什么工程价值吗

gaocegege commented 6 years ago

价值在于可配置性,最大的价值在于谷歌用。。

xplorld commented 6 years ago

。。。

xplorld commented 6 years ago

我问的是 ms 这个工作,看起来只是开了 worker,价值是什么?

gaocegege commented 6 years ago

初步支持嘛,已经很不简单了

xplorld commented 6 years ago

说到底 ml on k8s 的需求是啥啊,怎么样能 formalize 一下

given G gpus, M mems, C cpus, now that there are T tasks of (G,M, C), schedule to achieve least time cost

是这样的吗?看起来很背包

gaocegege commented 6 years ago

差不多吧,没有最优解,NP 问题

xplorld commented 6 years ago

那如果我们就 FIFO 的话,有啥可做的工作啊。。

gaocegege commented 6 years ago

首先工程难度比较大,其次 FIFO 肯定不行。。。

xplorld commented 6 years ago

不 FIFO,意味着有的job 提交了我们不会立即 run?

gaocegege commented 6 years ago

嗯,是的,还有现在的调度是以 pod 为单位,不是 job

gaocegege commented 6 years ago

其实需求是 cost saving,跟其他业务混合部署,调度上的需求都是由业务需求产生的

xplorld commented 6 years ago

pod = (docker image, env) ?

gaocegege commented 6 years ago

pod = 1 or more container in one machine

xplorld commented 6 years ago

cost saving = no idle GPU?

gaocegege commented 6 years ago

cost saving = 资源正好够用,但是这不现实,所以就尽可能不让资源闲着

xplorld commented 6 years ago

那我就fifo, 岂不是 gpu 就一直 no idle... 虽然可能 cpu, net 啥的会闲着

gaocegege commented 6 years ago

不会,资源碎片