关于论文中的数据结果计算疑问 - Githubissues

SunnyHaze / IML-ViT

Official repository of paper “IML-ViT: Benchmarking Image manipulation localization by Vision Transformer”

MIT License

184 stars 23 forks source link

关于论文中的数据结果计算疑问 #6

Closed CongYep closed 6 months ago

CongYep commented 8 months ago

十分感谢作者的工作，这也对我的研究有很大帮助，但我有一些关于论文中的数据结果计算疑问想问一下。

1、在论文的表格3的F1和AUC都是在测试集的假图上测试的，是吗？ 2、在论文的表格4的F1是包括了测试集的真图和假图是吗？如果是，那么真图的计算F1你是怎么解决的？（按照混淆矩阵计算真图的F1为0） 3、F1、AUC这些指标都是分别每张图片计算，再整个数据集平均的是吗？

CongYep commented 8 months ago

另外，我没有看到代码中有关于AUC的计算，你用的是网络输出的掩码预测概率值和Gt进行计算AUC的吗？

SunnyHaze commented 8 months ago

1和2：表3和4都是在假图上测试的，因为真图的F1没有意义。你也提到了这一点，同类问题可以参考这个回答的第三点：#4

特别需要指出的是，表4的训练是真图假图都用了。而表3只用了假图训练，减少开销。

对的，本文是先逐张计算F1和AUC后根据图片取平均的。我见过有一些论文会将整个数据集的全部pixel一起算混淆矩阵，然后再算对应的F1和AUC，对于IML这个黑色区域明显偏高的任务，这会使得指标虚高。
对的，AUC是用概率map而非二值mask算的，这和F1先threshold 0.5的处理方式不一样。那部分代码是一位同学完成的，他最近比较忙还没整理出来，会整理好后上传。

希望能帮到你，如果喜欢可以给个star 🤗

SunnyHaze commented 8 months ago

还有就是你截这张图可能不是我们arxiv上最新的论文version。CASIA 0.734的F1是需要48G显存开batchsize 4 训练得到的，我们在最新的version调整成了低一些的结果来和其他model进行fair comparison，后续论文revise的时候应该会显式说明这一点，请保持关注。这一点也在上述引用的issue #4 中某一个Comments的结尾提到了

CongYep commented 8 months ago

感谢作者的详细回复，已经STAR了。还有一个问题，表6中的AUC结果是否可以和表4最后一行F1是否是相同的训练和测试？（是不是可以合并在一起看结果？）为什么不把表4、表5、表6合并到一起这样方便比较性能？

SunnyHaze commented 8 months ago

表6确实可以和表4合在一起，诚然是因为这个领域目前大家开源的也很少，比较的时候只能和大家论文里report的数值比较。（如果复现的结果比原paper低也说明不了啥）。导致论文里没写的只能留空，然后基本就是很少有论文同时在比sota的时候report F1和AUC，所以为了表格不显得很空，就把表4、5、6拆开了。表5还有个原因是他们用了很大的私有预训练数据集，我们觉得这个点还是要指明的。

诚然，我们认为AUC对这个任务的评价并不那么重要，因为过多的负例会给AUC的分类带来很大的偏差（AUC会觉得很多区域都预测的不错，但其实就只是输出全黑的区域），使得指标虚高，所以我个人倾向于减少AUC在论文中的比重（但是该比还是要比）。

SunnyHaze commented 8 months ago

可能后续revise会考虑整理下这个表格吧，也感谢你的建议。

以及...目测还没star哦（狗头保命）

CongYep commented 8 months ago

已STAR，建议可以增加IOU指标

SunnyHaze commented 8 months ago

感谢感谢！

话说，近期有论文report这个指标么，可以给个reference么？我最近看的好像都没怎么report IOU这个信息，谢谢啦！方便的话我们会单独测一份的。

CongYep commented 8 months ago

[https://github.com/HighwayWu/FOCAL](()) 当今SOTA，FOCAL，希望你可以超越他们的性能

yanzhelee commented 5 months ago

[https://github.com/HighwayWu/FOCAL](()) 当今SOTA，FOCAL，希望你可以超越他们的性能

这个几乎无法预测真图，而且聚类的性能存在很大问题。