Closed leoxxxxxD closed 1 year ago
在convnextv2论文中作者使用convnextv1效果并不好,两篇论文的主要思路都是mae,但在spark中convnextv1仍然能从自监督中获益,请问可能是什么原因导致的呢
@leoxxxxxD 我没有仔细check过cnxv2的sparse方式是否和spark严格一致,可能会有分歧;另外cnxv2并未利用卷积网络的层次化结构进行多尺度decode,而根据spark的ablation,多尺度和sparse对于预训练的成功来说是同等重要的
在convnextv2论文中作者使用convnextv1效果并不好,两篇论文的主要思路都是mae,但在spark中convnextv1仍然能从自监督中获益,请问可能是什么原因导致的呢