SunnyHaze / IML-ViT

Official repository of paper “IML-ViT: Benchmarking Image manipulation localization by Vision Transformer”
MIT License
184 stars 23 forks source link

关于论文中的数据结果计算疑问 #6

Closed CongYep closed 6 months ago

CongYep commented 8 months ago

十分感谢作者的工作,这也对我的研究有很大帮助,但我有一些关于论文中的数据结果计算疑问想问一下。

image

1、在论文的表格3的F1和AUC都是在测试集的假图上测试的,是吗? 2、在论文的表格4的F1是包括了测试集的真图和假图是吗?如果是,那么真图的计算F1你是怎么解决的?(按照混淆矩阵计算真图的F1为0) 3、F1、AUC这些指标都是分别每张图片计算,再整个数据集平均的是吗?

CongYep commented 8 months ago

另外,我没有看到代码中有关于AUC的计算,你用的是网络输出的掩码预测概率值和Gt进行计算AUC的吗?

SunnyHaze commented 8 months ago

1和2:表3和4都是在假图上测试的,因为真图的F1没有意义。你也提到了这一点,同类问题可以参考这个回答的第三点:#4

特别需要指出的是,表4的训练是真图假图都用了。而表3只用了假图训练,减少开销。

  1. 对的,本文是先逐张计算F1和AUC后根据图片取平均的。我见过有一些论文会将整个数据集的全部pixel一起算混淆矩阵,然后再算对应的F1和AUC,对于IML这个黑色区域明显偏高的任务,这会使得指标虚高。

  2. 对的,AUC是用概率map而非二值mask算的,这和F1先threshold 0.5的处理方式不一样。那部分代码是一位同学完成的,他最近比较忙还没整理出来,会整理好后上传。

希望能帮到你,如果喜欢可以给个star 🤗

SunnyHaze commented 8 months ago

还有就是你截这张图可能不是我们arxiv上最新的论文version。CASIA 0.734的F1是需要48G显存开batchsize 4 训练得到的,我们在最新的version调整成了低一些的结果来和其他model进行fair comparison,后续论文revise的时候应该会显式说明这一点,请保持关注。这一点也在上述引用的issue #4 中某一个Comments的结尾提到了

CongYep commented 8 months ago

感谢作者的详细回复,已经STAR了。 还有一个问题,表6中的AUC结果是否可以和表4最后一行F1是否是相同的训练和测试?(是不是可以合并在一起看结果?) 为什么不把表4、表5、表6合并到一起这样方便比较性能?

SunnyHaze commented 8 months ago

表6确实可以和表4合在一起,诚然是因为这个领域目前大家开源的也很少,比较的时候只能和大家论文里report的数值比较。(如果复现的结果比原paper低也说明不了啥)。导致论文里没写的只能留空,然后基本就是很少有论文同时在比sota的时候report F1和AUC,所以为了表格不显得很空,就把表4、5、6拆开了。 表5还有个原因是他们用了很大的私有预训练数据集,我们觉得这个点还是要指明的。

诚然,我们认为AUC对这个任务的评价并不那么重要,因为过多的负例会给AUC的分类带来很大的偏差(AUC会觉得很多区域都预测的不错,但其实就只是输出全黑的区域),使得指标虚高,所以我个人倾向于减少AUC在论文中的比重(但是该比还是要比)。

SunnyHaze commented 8 months ago

可能后续revise会考虑整理下这个表格吧,也感谢你的建议。

以及...目测还没star哦 (狗头保命)

CongYep commented 8 months ago

已STAR,建议可以增加IOU指标

SunnyHaze commented 8 months ago

感谢感谢!

话说,近期有论文report这个指标么,可以给个reference么?我最近看的好像都没怎么report IOU这个信息,谢谢啦!方便的话我们会单独测一份的。

CongYep commented 8 months ago

[https://github.com/HighwayWu/FOCAL](()) 当今SOTA,FOCAL,希望你可以超越他们的性能

yanzhelee commented 5 months ago

[https://github.com/HighwayWu/FOCAL](()) 当今SOTA,FOCAL,希望你可以超越他们的性能

这个几乎无法预测真图,而且聚类的性能存在很大问题。