Closed zihao-lu closed 2 years ago
你好,请问你有没有遇到跟我类似的情况: 我用一张图片(一张图片重复8次构建了一个大小为8的数据集)训模型,在syncBN函数里,我如果把nccl_all_reduce那两句去掉,等价于每张卡使用一张卡的统计数据,模型收敛的很好, 但是,当我加上nccl_all_reduce之后也就是用整个batch的统计数据之后,模型刚开始收敛,后面突然loss增大再也降不下去, 特别奇怪,我对比了不同情况bn层的输出,都一样,但就是优化过程不一样,求交流一下,感谢!
你改下tf版本试试呢
你好,请问你有没有遇到跟我类似的情况: 我用一张图片(一张图片重复8次构建了一个大小为8的数据集)训模型,在syncBN函数里,我如果把nccl_all_reduce那两句去掉,等价于每张卡使用一张卡的统计数据,模型收敛的很好, 但是,当我加上nccl_all_reduce之后也就是用整个batch的统计数据之后,模型刚开始收敛,后面突然loss增大再也降不下去, 特别奇怪,我对比了不同情况bn层的输出,都一样,但就是优化过程不一样,求交流一下,感谢!