moothes / A2S-v2

A more robust Unsupervised Salient Object Detection (USOD) framework.
MIT License
46 stars 4 forks source link

关于论文RGB SOD对比实验中三种变体的疑惑 #3

Closed lartpang closed 1 year ago

lartpang commented 1 year ago

image

在RGB SOD的实验设置中,提到了三种版本:


从实验结果中:

image

我有这样的疑惑:为什么训练集自训练得到的伪标签模型自身性能,比使用这些伪标签在相同训练数据上监督训练的方案效果要差这么多呢?

moothes commented 1 year ago

您好! 您对于Ourss1、Ours和Oursmm的理解应该是没有问题的。 关于Ourss1和Ours的性能差异,我认为主要原因可能有以下几点: (1) 网络拟合的是训练集中图像的信息,并不能保证在测试图像上的结果。举例来说,我们的L_{BTM}可以指导网络在训练图像上得到不错的边缘,但是由于测试图像中颜色分布差异等因素,并不一定能够在测试图像上得到很好的边缘; (2) 我们对生成的显著性伪标签使用了CRF,进一步优化了它们的边缘,也会带来一定的性能提升。

lartpang commented 1 year ago

@moothes

感谢您的回复!

网络拟合的是训练集中图像的信息,并不能保证在测试图像上的结果。

或许可以理解为,第一阶段用于拟合一个逼近训练集的分布,第二阶段则由于训练的时间少,基本处于欠拟合的状态,对于数据中的高频噪声具有一定的过滤能力,再加上其本身无监督预训练的初始参数,可能获得了更好的测试性能。

moothes commented 1 year ago

我认为您的理解基本正确。 对于第二阶段的训练,我们在实验中发现网络训练中收敛的非常快,有时甚至epoch=2的时候就达到了最好的性能,后面反而会有较为严重的过拟合。因此我们的实验中只是简单地训练了10个epoches。 如果进一步优化第二阶段的训练过程,我认为可能会有更好的SOD性能。

lartpang commented 1 year ago

感谢您的回复!