Closed fht2018 closed 3 years ago
您好,请问您目前的代码是达到82.3的那个版本吗,我试了好几次都差了七八个点。
你好,不知道你是不是用的4块gpu去训练,因为我代码里batch size, learning rate之类的参数都是在4块gpu上调试的,用data parallel时会受gpu数量影响。
我改成只用一块GPU,可能就是问题所在吧,谢谢解答
您好,请问您目前的代码是达到82.3的那个版本吗,我试了好几次都差了七八个点。