markhuyong / git-favorites

pocket collenction arititcles
Apache License 2.0
2 stars 0 forks source link

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发! #16

Open markhuyong opened 2 years ago

markhuyong commented 2 years ago

https://mp.weixin.qq.com/s?src=11&timestamp=1641892186&ver=3552&signature=KDESt1OgzhhBr50JIIERCtGvAJLEGbDQz*3byEv-jsZP9SxywhnGaLtAdq2T*xzLRm09GFp0CP1w8*OydVibbpLNh5DVgDZYKZIbEzekgkua09aIZv77WPdr2Ncz5Yg2&new=1

github-actions[bot] commented 2 years ago

GPU 分布式 AI 训练加速引擎 TACO-Training 容器方案首发! by 腾讯云原生

冯克环,腾讯云异构计算研发工程师,专注于云上 AI 训练加速相关技术,对 GPU 虚拟化、GPU 训练加速有深厚的积累,目前负责腾讯云 AI 训练加速相关技术的研发以及性能优化工作。

张锐,腾讯云网络虚拟化研发工程师,在之前的工作中专注于 AI 训练网络优化方面的工作,在 RDMA、GPU 通信优化等方面有较多经验,目前专注于做云上AI训练通信优化方面的工作。

背景

随着 AI 模型规模的越来越大,训练数据的越来越多,用户对模型的迭代效率也要求越来越高,单个 GPU 的算力显然无法满足大部分业务场景,使用单机多卡或多机多卡训练成为趋势。单机多卡训练场景的参数同步借助目前NVIDIA NVLINK 技术已经得到了很好地解决,而多机多卡场景由于对网络通信的强依赖就没有那么简单。目前网卡厂商提供的高速互联技术 Infiniband 或者 RoCE,使得多机通信效率大幅提升,但是成本也大大增加,如何在 25G 或 50G VPC 网络环境下提升分布式训练系统的通信效率成为公有云厂商亟需解决的问题。

目前业内有很多分布式训练的加速技术,例如多级通信、多流通信、梯度融合、压缩通信等,TACO-Training 也引入了类似的加速技术,同时 TACO-Training 不同于业界其他方案的创新点在于自定义用户态协议栈 HARP,有效地解决了 VPC 环境下多机多卡训练中的网络通信问题。

本文首先介绍了腾讯云容器服务(Tencent Kubernetes Engine ,TKE)提供的云原生 AI 能力,然后介绍了腾讯云自研网络协议栈 HARP,最后指导用户如何在 TKE 上部署实践 TACO-Training 分布式训练方案

介绍

TKE 云原生 AI

Kubeflow 是在 K8s 平台之上针对机器学习的开发、训练、优化、部署和管理的工具集,融合了机器学习领域的很多开源项目,比如 Jupyter、tfserving、Katib、Argo 等。可以针对机器学习的不同阶段:数据预处理、模型训练、模型预测、服务部署等进行管理。只要安装了 K8s,就可以在本地、机房、云环境中任意部署。

TKE 云原生 AI 目前已经集成了(云原生AI正在内测中,更多信息以及申请内测方式请参考 https://cloud.tencent.com/document/product/457/62624)开源 Kubeflow 提供的部分 AI 组件,例如 mpi-operator,tf-operator,pytorch-operator,elastic-jupyter-operator 等,用户可以非常方便地安装使用。

TACO-Training

TACO-Training 是腾讯云异构计算团队基于 IaaS 资源推出的 AI 训练加速引擎,为用户提供开箱即用的 AI 训练套件。TACO-Training 背靠云帆 Oteam,基于腾讯内部丰富的 AI 业务场景,提供自底向上的网络通信、分布式策略及训练框架等多层级的优化,是一套全生态的训练加速方案。为了更好的服务用户,腾讯云决定公开内部深度优化的 AI 训练加速方案,助力用户节约计算成本,提高 AI 产品研发效率。

TACO-Training 在分布式场景引入的主要加速技术包括

HARP

随着网络硬件技术的发展,网卡的速度从 10G 增长到 100G 甚至更高,并在数据中心大量部署使用。但目前普遍使用的内核网络协议栈存在着一些必要的开销,使其不能很好地利用高速网络设备。为了解决内核网络协议栈存在的问题,腾讯云自研了用户态网络协议栈 HARP,可以以 Plug-in 的方式集成到 NCCL 中,无需任何业务改动,加速云上分布式训练性能。在 VPC 的环境下,相比传统的内核协议栈,HARP 提供了以下的能力

下图中左边是内核协议栈右边是用户态协议栈HARP

性能数据

下图展示了在 CVM GPU 训练集群下,各个开源模型使用 TACO training 进行分布式训练的加速效果。

可以发现:随着网络模型参数量的增加,TACO 相比 Horovod 的提升效果越来越明显,Transformer-XL 上面甚至有高达两倍多的性能提升

network

参数量(millions)

inceptionv3

25

resnet101

44

vgg16

138

transformer-xl

257

下图展示了,无论是 ResNet50 还是 Transformer-XL,在双机16卡 A100 的训练环境下,CVM 实例(GT4.41XLARGE948 + 50G VPC)通过HARP加速后,能够提供接近黑石 100G RDMA 产品(HCCPNV4h )的性能


部署实践

为了复现上述性能加速效果,接下来我们开始学习如何一步一步搭建 TKE Kubeflow + TACO-training 的 GPU 分布式训练集群。

环境准备

  1. 控制台[1]创建 TKE 集群,节点可以选择8卡 V100(GN10Xp.20XLARGE320 + 25G 网络)或者8卡 A100(GT4.41XLARGE948 + 50G 网络)实例。

参考如下配置:

注意:验证过的操作系统包括,

  1. 控制台[2]安装 Kubeflow 组件 mpi-operator。

安装成功之后,worker 节点上可以看到如下 pod

  1. 所有的 worker 节点配置大页内存

`// 登录worker节点的主机
sudo sed -i '/GRUB_CMDLINE_LINUX/ s/"$/ default_hugepagesz=1GB hugepagesz=1GB hugepages=50"/' /etc/default/grub

// 主机OS为Ubuntu
sudo update-grub2 && sudo reboot
或者
// 主机OS为CentOS或者TencentOS
sudo grub2-mkconfig -o /boot/grub2/grub.cfg && sudo reboot
`

主机起来之后,检查配置是否成功

  1. 绑定弹性网卡

登录 云服务器控制台[3],找到实例,点击 ins id 进入实例页面,选择弹性网卡,点击绑定弹性网卡。在弹出的“绑定弹性网卡”窗口中,按需选择绑定已创建的网卡,或新建弹性网卡并绑定。单击确定即可完成绑定。

注意:绑定的弹性网卡数量和本机 GPU 卡数一样。

绑定成功后,主机上可以看到9块弹性网卡(1个主网卡和8个辅助弹性网卡)

  1. 生成 HARP 配置文件

// 登录worker节点的主机 sudo curl -s -L  http://mirrors.tencent.com/install/GPU/taco/harp_setup.sh | bash

执行成功会打印 ‘Set up HARP successfully’,

创建 pod

参考如下:taco.yaml 文件,

apiVersion: kubeflow.org/v1 kind: MPIJob metadata:   name: taco-bench spec:   slotsPerWorker: 1   runPolicy:     cleanPodPolicy: Running   mpiReplicaSpecs:     Launcher:       replicas: 1       template:         spec:           containers:           - image: ccr.ccs.tencentyun.com/qcloud/taco-training:cu112-cudnn81-py3-0.3.2             name: mpi-launcher             command: ["/bin/sh", "-ec", "sleep infinity"]             resources:               limits:                 cpu: 1                 memory: 2Gi     Worker:       replicas: 4       template:         spec:           containers:           - image: ccr.ccs.tencentyun.com/qcloud/taco-training:cu112-cudnn81-py3-0.3.2             name: mpi-worker             securityContext:               privileged: true             volumeMounts:               - mountPath: /sys/                 name: sys               - mountPath: /dev/hugepages                 name: dev-hge               - mountPath: /usr/local/tfabric/tools                 name: tfabric             resources:               limits:                 hugepages-1Gi: "50Gi"                 memory: "100Gi"                 nvidia.com/gpu: 8 # requesting 1 GPU           volumes:             - name: sys               hostPath:                 path: /sys/             - name: dev-hge               hostPath:                 path: /dev/hugepages/             - name: tfabric               hostPath:                 path: /usr/local/tfabric/tools/

几点说明:

kubectl create -f taco.yaml

创建成功后

开始测试

下载 benchmark 脚本并拷贝到 taco 的 container 当中,

``wget 
https://raw.githubusercontent.com/horovod/horovod/master/examples/tensorflow/tensorflow_synthetic_benchmark.py

for i in kubectl get pods | grep worker | awk '{print $1}'
do kubectl cp tensorflow_synthetic_benchmark.py $i:/mnt/; done
``

为了测试不同的网络模型和节点数量下的性能,mpi launcher pod 并没有配置成直接启动训练脚本方式。

`//登录launcher pod
kubectl exec -it taco-bench-launcher -- bash

// 执行训练benchmark
/usr/local/openmpi/bin/mpirun -np 32 -H taco-bench-worker-0:8,taco-bench-worker-1:8,taco-bench-worker-2:8,taco-bench-worker-3:8 --allow-run-as-root -bind-to none -map-by slot -x NCCL_ALGO=RING -x NCCL_DEBUG=INFO -x HOROVOD_MPI_THREADS_DISABLE=1 -x HOROVOD_FUSION_THRESHOLD=0  -x HOROVOD_CYCLE_TIME=0 -x LIGHT_2D_ALLREDUCE=1 -x LIGHT_TOPK_ALLREDUCE=1 -x LIGHT_TOPK_THRESHOLD=2097152 -x LIGHT_INTRA_SIZE=8 -x LD_LIBRARY_PATH -x PATH -mca btl_tcp_if_include eth0 python3 /mnt/tensorflow_synthetic_benchmark.py --model=VGG16 --batch-size=128
`

如果需要切换到 Horovod 做对比测试,执行如下命令删除 TACO 相关组件,安装开源 Horovod:

`// 卸载HARP加速库 for i in kubectl get pods | grep worker | awk '{print $1}'`; do kubectl exec $i -- bash -c 'mv /usr/lib/x86_64-linux-gnu/libnccl-net.so /mnt/'; done

// 卸载LightCC
for i in kubectl get pods | grep worker | awk '{print $1}'; do kubectl exec $i -- bash -c 'pip uninstall -y light-horovod;echo'; done

// 安装horovod(耗时8分钟左右)
for i in kubectl get pods | grep worker | awk '{print $1}'; do kubectl exec $i -- bash -c 'export PATH=/usr/local/openmpi/bin:$PATH;HOROVOD_WITH_MPI=1 HOROVOD_GPU_OPERATIONS=NCCL HOROVOD_WITH_TENSORFLOW=1 HOROVOD_NCCL_LINK=SHARED pip3 install --no-cache-dir horovod==0.21.3'; done

// 检查确认所有的worker都已经成功horovod
for i in kubectl get pods | grep worker | awk '{print $1}'; do kubectl exec $i -- bash -c 'pip show horovod;echo'; done
``

至此我们就可以复现出前面展示的性能数据了,


注意:黑石 A100+RDMA 的产品测试需要额外的环境配置,TACO 镜像暂不支持。

总结

本文首先介绍了当前分布式训练的现状以及面临的问题,然后介绍了腾讯云在分布式训练方面的底层优化与探索,引出业内首个自定义网络协议栈—— HARP。

接着我们展示了有 HARP 加持的 TACO-Training 引擎的加速效果

最后,通过本最佳实践,我们也展示了如何基于 TKE Kubeflow 一步步搭建 TACO-training 训练集群,流程非常简单方便。

参考资料

[1]

控制台: 【https://console.cloud.tencent.com/tke2/cluster/create?rid=8

[2]

控制台:  【https://console.cloud.tencent.com/tke2/ai/create?rid=8

[3]

云服务器控制台:  【https://console.cloud.tencent.com/cvm/index

重 磅 来 袭

云原生知识趣味问答活动第一期11月26日(今天)15:00开启
参与答题 PK 领腾讯周边啦!
如何参与?
方式一:添加小助手(腾小云:TKEplatform),进入云原生交流群
方式二:【腾讯云原生】公众号后台回复“第一期问卷”

往期精选推荐

点个“在看”每天学习最新技术