Closed Hugo-cell111 closed 1 year ago
作者你好!在这行代码里,我看到你使用了dist.all_reduce,但是一般来说使用了DDP就不需要再把各GPU上的值给汇总起来了。请问这行代码的作用是什么呢?
Hi, 应该是为了统计总loss,同样地方式,还统计了hardness。
作者你好!在这行代码里,我看到你使用了dist.all_reduce,但是一般来说使用了DDP就不需要再把各GPU上的值给汇总起来了。请问这行代码的作用是什么呢?