Closed pengqianli closed 4 years ago
@pengqianli 可以选择一个比较可信的测试代码来整体测试使用所有方法各自的预测结果。毕竟这个领域的方法都会提供自己在不同数据集上的预测结果。 关于我使用的评估方法可见: https://github.com/lartpang/MINet/tree/master/code#evaluation
感谢您的回复,我对比的您的测试代码和我现在所使用的,有几处不同,可能导致了上述现象。
对比了一下,您提供的Emeasure代码确实能跑出相对较高(相比F3Net提供的Emeasure代码)的结果,并且跟您论文中的结果基本一致(0.9178 vs 0.917),因此如果要公平对比的话,还是要下载作者提供的results然后统一用同一份评价代码进行评价才行。(这个问题我搞明白了,谢谢)
作者您好,我下载了您的saliency map(resnet50的),并用F3Net提供的evaluation code进行了测试,目前只是测了DUTS-TS这一个数据集。但是,我发现您提供的结果在DUTS-TE上的E-measure上的分数是0.8983(论文中展示的是0.917),不知道是否是操作系统环境导致的问题?我进一步检查了您在DUTS-TE上其他对比方法的结果(均从作者的github上直接下载),BASNet(本地0.8843,您的论文中0.884,没有出入),CPD-R(本地0.8874,您的论文中显示0.904,F3Net论文中0.886)。 我猜测是因为每篇论文测试代码有些微的不同导致了上述的差异,可能操作系统等环境也会导致一些差异,那么,我有一个问题想向您请教一些,面对这样的情况(测试结果与论文结果由较大出入时),是应该统一使用作者提供的结果并使用同样evaluation code进行测试,还是必须要引用论文结果才可以呢?