Open AbstractEyes opened 3 weeks ago
00%|�������������������������������������������������������������������������������������������������������������������������������������������������| 16820/16820 [00:13<00:00, 1227.28it/s]
[rank0]:[W1028 04:48:19.843866299 ProcessGroupNCCL.cpp:4115] [PG ID 0 PG GUID 0 Rank 0] using GPU 0 to perform barrier as devices used by this process are currently unknown. This can potent
100%|�������������������������������������������������������������������������������������������������������������������������������������������������| 16820/16820 [00:13<00:00, 1239.79it/s]
[rank2]:[W1028 04:48:19.034140532 ProcessGroupNCCL.cpp:4115] [PG ID 0 PG GUID 0 Rank 2] using GPU 2 to perform barrier as devices used by this process are currently unknown. This can potent
ially cause a hang if this rank to GPU mapping is incorrect.Specify device_ids in barrier() to force use of a particular device,or call init_process_group() with a device_id.01, 1233.43it/s]
100%|�������������������������������������������������������������������������������������������������������������������������������������������������| 16820/16820 [00:13<00:00, 1238.39it/s]
[rank3]:[W1028 04:48:19.062080939 ProcessGroupNCCL.cpp:4115] [PG ID 0 PG GUID 0 Rank 3] using GPU 3 to perform barrier as devices used by this process are currently unknown. This can potent
ially cause a hang if this rank to GPU mapping is incorrect.Specify device_ids in barrier() to force use of a particular device,or call init_process_group() with a device_id.01, 1287.83it/s]
100%|�������������������������������������������������������������������������������������������������������������������������������������������������| 16820/16820 [00:13<00:00, 1241.05it/s]
[rank1]:[W1028 04:48:19.067909403 ProcessGroupNCCL.cpp:4115] [PG ID 0 PG GUID 0 Rank 1] using GPU 1 to perform barrier as devices used by this process are currently unknown. This can potent
ially cause a hang if this rank to GPU mapping is incorrect.Specify device_ids in barrier() to force use of a particular device,or call init_process_group() with a device_id.02, 1250.90it/s]
When using multi-GPU training in Linux (or WSL), do not specify the --rdzv_backend=c10d
option. If it does not work even if you remove this option, could you please share the command line options?