Oneflow-Inc / DLPerf

DeepLearning Framework Performance Profiling Toolkit
Apache License 2.0
275 stars 27 forks source link

请教下tensorflow的bert指定nccl无法运行的问题 #160

Open Chenjingliang1 opened 2 years ago

Chenjingliang1 commented 2 years ago

在下面这个链接里看到有提到tensorflow的bert不支持nccl https://github.com/Oneflow-Inc/DLPerf/blob/master/reports/dlperf_benchmark_test_report_v1_cn.md image

但这个链接里又给出了测评结果https://github.com/Oneflow-Inc/DLPerf/tree/master/TensorFlow/bert#%E5%A4%9A%E6%9C%BA 且在https://github.com/Oneflow-Inc/DLPerf/blob/master/TensorFlow/bert/scripts/single_node_train.sh#L64 里看到@YongtaoShi 提交的增加了nccl的配置。

请问你们后来是咋运行成功的?我现在也遇到指定nccl就不能正常运行了。

感谢~

Flowingsun007 commented 2 years ago

在下面这个链接里看到有提到tensorflow的bert不支持nccl https://github.com/Oneflow-Inc/DLPerf/blob/master/reports/dlperf_benchmark_test_report_v1_cn.md image

但这个链接里又给出了测评结果https://github.com/Oneflow-Inc/DLPerf/tree/master/TensorFlow/bert#%E5%A4%9A%E6%9C%BA 且在https://github.com/Oneflow-Inc/DLPerf/blob/master/TensorFlow/bert/scripts/single_node_train.sh#L64 里看到@YongtaoShi 提交的增加了nccl的配置。

请问你们后来是咋运行成功的?我现在也遇到指定nccl就不能正常运行了。

感谢~

你好,可以试试看,是不是指定all_reduce_alg=nccl的同时,还指定了其他的distribution_strategy等参数呢?参考这里:https://github.com/Oneflow-Inc/DLPerf/blob/master/TensorFlow/bert/scripts/single_node_train.sh#L61-L64

Chenjingliang1 commented 2 years ago

这些参数我都有指定,all_reduce_alg设置成ring,就可以正常运行,一设置成nccl就卡住了。 你们当时遇到的啥问题?为啥开始写了踩坑经验0.0,后来指定那几个参数就可以了吗?还是用的tf2.3版本嘛~

Flowingsun007 commented 2 years ago

这些参数我都有指定,all_reduce_alg设置成ring,就可以正常运行,一设置成nccl就卡住了。 你们当时遇到的啥问题?为啥开始写了踩坑经验0.0,后来指定那几个参数就可以了吗?还是用的tf2.3版本嘛~

我一开始也遇到了多机指定all_reduce_alg=nccl会bug的问题,后续怎么解决的 @YongtaoShi 了解吗?