tencentmusic / cube-studio

cube studio开源云原生一站式机器学习/深度学习/大模型AI平台,支持sso登录,多租户,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vllm大模型推理,llmops,私有知识库,AI模型应用商店,支持模型一键开发/推理/微调,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/spark/ray/volcano分布式
Other
3.45k stars 610 forks source link

异构算力支持? #221

Closed jeremyjiao closed 5 months ago

jeremyjiao commented 8 months ago

看描述可以支持海光DCU和华为NPU,但是看扩容的时候还是要基于nvidia-docker2,那这样是否只是限定了只可以扩容GPU?

是否存在异构算力统一管理的可能性,如一个集群内包括了NPU和GPU两种架构的计算资源,可以统一管控,不一定统一调度。

谢谢!

data-infra commented 5 months ago

目前只有企业版支持国产gpu