Open pineking opened 7 years ago
补充测试了mxnet 在 k8s 集群上的分布式性能
batch_size=128
batch_size=256
@xuerq 关于分布式 mxnet 的多机多卡实验
@xuerq 一些结论看是否正确:
没用单独测过 ssh 的分布式速度 对比上一帖子:ssh 方式 分布式2机*每机4卡的速度 ssh: 8010.492(张图像每秒) k8s: 7586.296786(张图像每秒) k8s 约是 ssh 速度的 94.7%
5% 的差异是不是来自 docker 的封装? docker 应该会有 1% 左右的性能下降
这个5%的差异是不是来自pod之间的通信依赖的是物理网络之上的一层软件实现的overley network?
按说docker不应该引入什么性能差异吧。
有可能,但也不好说,5% 差距可能是正常的性能波动,可能需要多做几轮对比测试验证一下
结论
机器配置
数据与网络
单机单卡
单机多卡
单机两卡
单机四卡
单机八卡
多机多卡
两机,每机四卡