问一些问题 - Githubissues

hello，看完你们的文章后。我有几个问题想请教一下：

fig3 LARS和SGD train出来的模型，分布不同，但是CKA分数却相同。并且normrescale之后CKA相似性反而下降了。怎么解释CKA相似性与结论相冲突呢？
table 3 normrescale之后的模型比SGD原生train出来的模型在COCO上效果还要更好。怎么理解这种现象？
最后在asymmetric architecture与data augmentation的关系那里，实验显示MOCO V2+与BYOL都对aug敏感，但是对称化后就好一些，这是否说明对称架构更不敏感于数据增强？如果这个结论正确，那么MOCO原本就是对称架构，为什么先前的文章中结论是MOCO更敏感于数据增强呢？

感谢您关心我们的工作，这是我们对于几个问题的回答：

因为NormRescale是一个将参数的权重进行调整的操作，这意味着参数的分布（均值、方差）会发生改变。这种改变对模型的前向传播更像是引入了一些噪声，所以特征的CKA相似性降低是合理的。另一方面，Rescale之后特征的CKA相似性并没有发生骤降，以及最终fine-tuning的效果都能说明，这种噪声只是为了让LARS-trained weights更好地适应fine-tuning中优化的超参数，并不会完全丢失学到的信息。
我们认为这只是一种训练中的波动，或许是预训练模型在NormRescale后，恰巧击中了fine-tuning的较优的初始化点。我们不认为这是一种必然的提升。
我们并不希望大家过分关注linear evaluation上的效果。有些paper （如[1], [2]）也指出，linear eval的效果与downstream tasks上的效果并非高度相关。从这一点出发，结合这些模型在不同任务上的效果，其实我们没能得出对称结构对数据增强的选择更不敏感这一结论。关于我们与过去文章得出不一样的结论的原因，我们在文中已经说明了——过去的文章在对比时，缺少公平的训练细节处理（比如predictor、momentum update策略等等）。

[1] Chen, X., Fan, H., Girshick, R., & He, K. (2020). Improved baselines with momentum contrastive learning. arXiv preprint arXiv:2003.04297. [2] Ericsson, L., Gouk, H., & Hospedales, T. M. (2021). How well do self-supervised models transfer?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 5414-5423).

megvii-research / revisitAIRL

问一些问题 #1