表5的完整性 - Githubissues

ZXMMD commented 5 months ago

PixPin_2024-03-19_11-56-06

这里只测试了一个数据集，请问能和之前的方法对齐，也测试一下NIST、Coverage和IMD数据集吗

SunnyHaze commented 5 months ago

您好，感谢您的关注！表中列举的方法都采用了大量的私有预训练数据集训练后，再在下游数据集上finetune，这带来了“对齐”上一些不公平的问题。我们不希望后续工作过多参考这种范式，因为缺乏可复现性，所以我们全文更多靠近了MVSS-Net的evaluation Protocol（因为该工作基本也是Train from scratch的），而必要的混合数据集的对比我们也在Table 7中予以给出大致也能作为合理参考。

以PSCC-Net为例（ObjectFormer follow了他们的split）:

NIST数据集被随机分成404/160的Train/Test，由于NIST数据集具有大量重复的图片（在此工作有体现）所以这样划分几乎任何网络都会获得极高结果，这在我们的Table 7中也有所体现，但实质上是对于数据集中过于相似的模式过拟合了。
COVERAGE同理，只有75/25张的训练数据集对于深度学习方法也极易过拟合，相比之下，ObjectFormer使用了62K级别的IML数据集进行pretrain后再finetune。
IMD20数据集虽然有2010张图片，但在PSCC-Net的split中仅仅用作测试，没有用于训练，对于train from scratch的IML-ViT则不可能与该Protocol进行公平比较。

所以综合考虑后，我们仅与这些经过大量私有数据集pre-train的模型比较了CASIA的性能（因为至少CASIAv2有相当数量的图片，而且不像NIST那么容易过拟合），并在Table 7中进行了相对公平，但参考意义更多的比较。并且，现有的train from scratch的工作都没有follow SPAN，ObjectFormer的Protocol进行比较。

希望能解决你的问题，也欢迎进一步讨论更合理的evaluation Protocol！祝好！

ZXMMD commented 5 months ago

确实如此。从为数不多的测试集中划分出一部分进行finetune不够合理，但还是有一批工作follow这种模式。感谢您的答复！

SunnyHaze commented 5 months ago

是这样的，所以我们给出了表7，通过组合不同数据集的方式一定程度上避免过拟合，这样也可以尽可能的有一个“定性”的比较以供后续工作参考。

SunnyHaze / IML-ViT

表5的完整性 #12