关于训练source model用到的超参数

SakurajimaMaiii / TSD

[CVPR 2023] Feature Alignment and Uniformity for Test Time Adaptation

https://arxiv.org/abs/2303.10902

MIT License

41 stars 1 forks source link

关于训练source model用到的超参数 #4

Closed vellichorw closed 1 year ago

vellichorw commented 1 year ago

你好！我想知道训练source model时，用到的超参数。我按照论文里使用了Adam，lr设置为5e-5, 代码中的默认设置包括，bs设置为32，max_epoch设置为120，seed设置为0。但是我训练出来的source model性能不够。文章report的结果是： A | C | P | S | AVG 82.5|80.8|94.1|81.0|84.6 我训练的模型结果是： A | C | P| S| AVG 81.98 | 76.49 | 95.69 | 80.17 | 83.5825

请问还有什么参数需要做修改吗？谢谢！

SakurajimaMaiii commented 1 year ago

readme里面train那个地方少写了一些代码，现在已经补全的了。训练的超参数和你说的一样，max_epoch我设置了50（因为固定了每个epoch都是100次迭代，总共5000次迭代，所以设置成了50个epoch）不过这个应该不会影响很大。

结果低主要是因为在A P S上训练时， C的结果太低，可能是离群值。因为DG的数据集比较小，结果浮动比较大。正常C的结果在80.8±0.6都是合理的。你可以多跑几次看看结果。

vellichorw commented 1 year ago

你好！我想问在Table 6中用到的backbone，其中训练ViT-B16和Mixer-L16用到的参数是什么，需要另外调整学习率吗？因为我自己训出来的在PACS上的average acc分别低于87.13和84.59三个点左右。

SakurajimaMaiii commented 1 year ago

不同网络的超参数都是一样的，学习率 5e-5 50个epoch 使用Adam优化器 batch size 32。如果有需要的话，我可以传一下我的source model。