OpenCSGs / CSGHub

CSGHub is an opensource large model assets platform just like on-premise huggingface which helps to manage datasets, model files, codes and more. CSGHub是一个开源、可信的大模型资产管理平台,可帮助用户治理LLM和LLM应用生命周期中涉及到的资产(数据集、模型文件、代码等)。CSGHub提供类似私有化的Huggingface功能,以类似OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及Sonatype Nexus管理制品的方式,实现对LLM资产的管理。欢迎关注反馈和Star⭐️
https://opencsg.com/models
Apache License 2.0
1.55k stars 205 forks source link

私有化部署如何对接 K8S GPU/GCU 的平台? #268

Open caiyuanji opened 1 week ago

caiyuanji commented 1 week ago

当使用 all-in-one.yaml 清单文件以 docker compose 的方式将其 Running 起来。然后新建 应用空间 时发现:“空间云资源” 选项为空。对比了社区平台的这个选项 ,发现社区平台的该选项可以提供“空闲的CPU” 资源,及 NVIDIA T4 的一些资源。对于该选项有没有一些文档说明呢?私有化部署时应该如何对接 GPU/GCU 的集群平台呢?

Rader commented 1 week ago

抱歉,这块的 doc 还有待完善。 按目前的实现,空间云资源需要根据私有化部署的资源情况,手动在数据库中初始化数据,对应的数据库表为 space_resources

数据格式参考下面这个 sql 语句:

INSERT INTO public.space_resources (name,created_at,updated_at,resources) VALUES
     ('NVIDIA T4 · 4 vCPU · 16 GB','2024-04-22 21:30:30.248','2024-05-06 11:19:03.408','{ "gpu": { "type": "T4", "num": "1", "resource_name": "nvidia.com/gpu", "labels": { "aliyun.accelerator/nvidia_name": "NVIDIA-A10" } }, "cpu": { "type": "Intel", "num": "4" }, "memory": "16Gi" }');
caiyuanji commented 1 week ago

首先非常感谢你的支持。 按照你提供的方法,手工在 starhub_server 库的 space_resources 表中插入了上述的 insert 条目,确认插入成功。 但在 Web 界面上 “应用空间” --“空间云资源” 下拉列表仍然为空,docker restart csghub-csghub_portal-1 及 csghub-csghub_server-1 之后 现象依旧。

  1. 单纯按照上述步骤确实没成功;
  2. 如果仅按上述步骤操作成功,web 界面上虽然可以选择了 “云资源” , 但相应的 k8s GPU 平台如何收到“资源请求” ,如何联动执行用户提交的 app.py ?

如果七月初 这方面的 docs 能够完善完毕,我可以再等几天。