jianlong-yuan / syncbn-tensorflow

Synchronized Multi-GPU Batch Normalization
67 stars 13 forks source link

SyncBN加了之后模型不收敛 #9

Closed zihao-lu closed 2 years ago

zihao-lu commented 4 years ago

你好,请问你有没有遇到跟我类似的情况: 我用一张图片(一张图片重复8次构建了一个大小为8的数据集)训模型,在syncBN函数里,我如果把nccl_all_reduce那两句去掉,等价于每张卡使用一张卡的统计数据,模型收敛的很好, 但是,当我加上nccl_all_reduce之后也就是用整个batch的统计数据之后,模型刚开始收敛,后面突然loss增大再也降不下去, 特别奇怪,我对比了不同情况bn层的输出,都一样,但就是优化过程不一样,求交流一下,感谢!

jianlong-yuan commented 3 years ago

你改下tf版本试试呢