Open dahuaxiya opened 1 year ago
我理解原因可能是: ddp是数据并行,意味着模型有多份,它们有些相同的初始参数,每次前向后向时只看到属于自己partition的训练数据,算完梯度后,进程间通讯,大家同步一下参数。我看你是直接算当前batch上的准确率,并且是在backward之前,那意味着还没同步参数,模型看到的训练数据是不一样的:如果是1GPU,那模型是看到全量数据的,如果是2GPU,每个模型只看到了一半的数据,导致算出来的准确率也不一样。 建议在完成一个前向后向后,在测试集上计算指标。
Owner
是这样的,我试了一下。每个GPU只能看到所有数据的一部分,是我的计算方法有误,应该除以每个GPU看到的所有样本数量,而不是数据集所有的样本数量。 谢谢作者的解答
代码如下:
1个GPU时,acc:89% 3个GPU时,acc:29% 4个GPU时,acc: 17%