请问batch size对训练结果是否有影响呢

谢谢你对我的研究感兴趣。

我几天前又更新了一遍我所有的代码，这些是我当时用的源码。如果你跑的是我一年前公布的代码，那我建议你用我最近更新的代码再跑一遍。

我当时设置的batch size 2是因为我只有一个GPU。为了节省时间，我支持你设置batch size 10, 而且我并不觉得这是复现失败的原因。我记得因为我的batch size比较小，所以我把SKNet（也就是我的CSF模块）里面的一个batchnorm层去掉了。你可以在normalization上面做一些调整。

我的main idea是patch embedding里面的位置信息可以补充feature map的知识。如果你想验证我的idea，继续做这个idea的创新。可以先跑一遍Knowledge Review，再用四个线性层来对齐四个patch embedding（我的PEA模块）。

欢迎交流。

RuipingL / TransKD

请问batch size对训练结果是否有影响呢 #5