SunnyHaze / IML-ViT

Official repository of paper “IML-ViT: Benchmarking Image manipulation localization by Vision Transformer”
MIT License
184 stars 23 forks source link

表5的完整性 #12

Closed ZXMMD closed 5 months ago

ZXMMD commented 5 months ago

PixPin_2024-03-19_11-56-06

这里只测试了一个数据集,请问能和之前的方法对齐,也测试一下NIST、Coverage和IMD数据集吗

SunnyHaze commented 5 months ago

您好,感谢您的关注! 表中列举的方法都采用了大量的私有预训练数据集训练后,再在下游数据集上finetune,这带来了“对齐”上一些不公平的问题。我们不希望后续工作过多参考这种范式,因为缺乏可复现性,所以我们全文更多靠近了MVSS-Net的evaluation Protocol(因为该工作基本也是Train from scratch的),而必要的混合数据集的对比我们也在Table 7中予以给出大致也能作为合理参考。

PSCC-Net为例(ObjectFormer follow了他们的split):

所以综合考虑后,我们仅与这些经过大量私有数据集pre-train的模型比较了CASIA的性能(因为至少CASIAv2有相当数量的图片,而且不像NIST那么容易过拟合),并在Table 7中进行了相对公平,但参考意义更多的比较。并且,现有的train from scratch的工作都没有follow SPAN,ObjectFormer的Protocol进行比较

希望能解决你的问题,也欢迎进一步讨论更合理的evaluation Protocol!祝好!

ZXMMD commented 5 months ago

确实如此。从为数不多的测试集中划分出一部分进行finetune不够合理,但还是有一批工作follow这种模式。感谢您的答复!

SunnyHaze commented 5 months ago

是这样的,所以我们给出了表7,通过组合不同数据集的方式一定程度上避免过拟合,这样也可以尽可能的有一个“定性”的比较以供后续工作参考。