lovejoy / lovejoy.github.com

This is My hexo blog
0 stars 0 forks source link

k8s中的GPU共享功能实现分析 | 吐核|Core Dump #40

Open lovejoy opened 5 years ago

lovejoy commented 5 years ago

https://blog.spider.im/post/gpu-share-in-k8s/

GPU在容器间共享这个功能其实都有需要,但是官方都没有,之前在公司内实现的改动也太过于in-tree,无法opensource,今天看到阿里云开源了个GPU共享的方案,那么顺道借分析下阿里的方案来总结下这方面的事情。 阿里云的代码在https://github.com/AliyunContainerService/gpushare-scheduler-extenderhttps://github.

harryge00 commented 3 years ago

“gpu卡在多个容器中的共享,并且需要业务去适应这样的问题” 意思是多个容器挂同一块gpu,显存没有隔离,需要容器里的进程根据环境变量自己去分配gpu显存?

lovejoy commented 3 years ago

@harryge00 “gpu卡在多个容器中的共享,并且需要业务去适应这样的问题” 意思是多个容器挂同一块gpu,显存没有隔离,需要容器里的进程根据环境变量自己去分配gpu显存? 是的呀,一般机器学习框架初始化的时候都有函数设置总的GPU显存量,代码改的成本不大的。