NascentCore / 3k

3-k platform is for training LLMs
GNU Affero General Public License v3.0
13 stars 3 forks source link

【系统改进】训练任务增加IB共享设备配置 #327

Open cairong-ai opened 9 months ago

cairong-ai commented 9 months ago

背景 当前训练任务创建的pod并未增加 rdma_shared_device 设备,无法使用IB网卡传输

系统改进提议和目的 增加共享设备配置:rdma/rdma_shared_device_a: 1

RDMA shared device 的机制 RDMA shared device 是一种 RDMA 设备共享机制,它允许多个应用程序或容器共享同一个 RDMA 设备,以提高资源利用率和性能。操作系统通过使用命名空间隔离来确保安全性和隔离,同时 RDMA API 和库提供了应用程序与 RDMA 设备交互的接口。这种机制在高性能计算和分布式系统中非常有用,因为它可以减少硬件资源的浪费,并允许多个应用程序同时利用 RDMA 技术的优势。

MPIJob、PyTorch Job 等等使用 RDMA shared device 的计算任务的实际需求 对于分布式训练任务,可以通过 rdma 协议进行传输的场景均需开启 rdma 设备共享,以达到共享 IB 网卡,提高资源复用率以及性能的目的。

yzhao-2023 commented 9 months ago

需要系统性描述:

  1. RDMA shared device 的机制
  2. MPIJob、PyTorch Job 等等使用 RDMA shared device 的计算任务的实际需求
  3. 业界其他类似系统如何设计,咨询 kubeflow 群组

然后作为下一步开发测试的基础