PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
22.11k
stars
5.55k
forks
source link
多机多卡分布式训练(Multi-machine Multi-GPU Distributed Training ) #68480
Open
xlg-go opened 5 days ago
bug描述 Describe the Bug
https://github.com/PaddlePaddle/PaddleOCR/issues/13912
整个环境分别在两个主(134)从(131)机的docker容器环境下, 容器的网络是--ipc=host --network=host --gpus all;主从机已经分别指定nccl通信的网卡;ssh也已经互为免密,ssh端口是22;主从机能互ping通;
借鉴:https://paddlepaddle.github.io/PaddleOCR/ppocr/blog/distributed_training.html
然而主从机执行到 NCCL INFO Using network Socket 就卡主不动了;主从机的指定gpu,分别只是占用一点显存,除此之外,没有任何利用率,主占用显存520M,从占用显存410M。
主机执行的语句:
从机执行的语句:
其他补充信息 Additional Supplementary Information
🏃♂️ Environment (运行环境)
系 统 os:docker ubuntu 20.04 paddleocr:0.1.0.dev0+d20240926 paddlepaddle-gpu:3.0.0.dev20240925 cuda: 12.3 nccl: 2.19.3+cu12.3
🌰 Minimal Reproducible Example (最小可复现问题的Demo)
master节点(192.168.8.134)
slave节点(192.168.8.131)