Open Chenjingliang1 opened 2 years ago
在下面这个链接里看到有提到tensorflow的bert不支持nccl https://github.com/Oneflow-Inc/DLPerf/blob/master/reports/dlperf_benchmark_test_report_v1_cn.md
但这个链接里又给出了测评结果https://github.com/Oneflow-Inc/DLPerf/tree/master/TensorFlow/bert#%E5%A4%9A%E6%9C%BA 且在https://github.com/Oneflow-Inc/DLPerf/blob/master/TensorFlow/bert/scripts/single_node_train.sh#L64 里看到@YongtaoShi 提交的增加了nccl的配置。
请问你们后来是咋运行成功的?我现在也遇到指定nccl就不能正常运行了。
感谢~
你好,可以试试看,是不是指定all_reduce_alg=nccl
的同时,还指定了其他的distribution_strategy
等参数呢?参考这里:https://github.com/Oneflow-Inc/DLPerf/blob/master/TensorFlow/bert/scripts/single_node_train.sh#L61-L64
这些参数我都有指定,all_reduce_alg设置成ring,就可以正常运行,一设置成nccl就卡住了。 你们当时遇到的啥问题?为啥开始写了踩坑经验0.0,后来指定那几个参数就可以了吗?还是用的tf2.3版本嘛~
这些参数我都有指定,all_reduce_alg设置成ring,就可以正常运行,一设置成nccl就卡住了。 你们当时遇到的啥问题?为啥开始写了踩坑经验0.0,后来指定那几个参数就可以了吗?还是用的tf2.3版本嘛~
我一开始也遇到了多机指定all_reduce_alg=nccl会bug的问题,后续怎么解决的 @YongtaoShi 了解吗?
在下面这个链接里看到有提到tensorflow的bert不支持nccl https://github.com/Oneflow-Inc/DLPerf/blob/master/reports/dlperf_benchmark_test_report_v1_cn.md
但这个链接里又给出了测评结果https://github.com/Oneflow-Inc/DLPerf/tree/master/TensorFlow/bert#%E5%A4%9A%E6%9C%BA 且在https://github.com/Oneflow-Inc/DLPerf/blob/master/TensorFlow/bert/scripts/single_node_train.sh#L64 里看到@YongtaoShi 提交的增加了nccl的配置。
请问你们后来是咋运行成功的?我现在也遇到指定nccl就不能正常运行了。
感谢~