RuipingL / TransKD

15 stars 3 forks source link

请问batch size对训练结果是否有影响呢 #5

Closed lpc-97 closed 1 year ago

lpc-97 commented 1 year ago

老师,您好:

您的TransKD的论文,非常系统和创新,我对您的工作非常感兴趣。在复现您代码的过程中,遇到了一个小问题,想和您请教。

我在使用Cityscapes数据集复现您的代码,选用TransKD-Base,训练了1000epoch后,得到的mIOU是62.1%,我设置的batch size 是10,其余的参数和您代码设置的一样。

我用了您训练的TransKD-Base权重,测试mIOU结果是68.58%。

我目前训练得到的结果,和您的有较多的差距。

想问下,老师您github上开源的代码,是否还有其他参数,需要设置或者修改呢。

RuipingL commented 1 year ago

谢谢你对我的研究感兴趣。

我几天前又更新了一遍我所有的代码,这些是我当时用的源码。如果你跑的是我一年前公布的代码,那我建议你用我最近更新的代码再跑一遍。

我当时设置的batch size 2是因为我只有一个GPU。为了节省时间,我支持你设置batch size 10, 而且我并不觉得这是复现失败的原因。我记得因为我的batch size比较小,所以我把SKNet(也就是我的CSF模块)里面的一个batchnorm层去掉了。你可以在normalization上面做一些调整。

我的main idea是patch embedding里面的位置信息可以补充feature map的知识。如果你想验证我的idea,继续做这个idea的创新。可以先跑一遍Knowledge Review,再用四个线性层来对齐四个patch embedding(我的PEA模块)。

欢迎交流。