fereenwong / AMMNet

official code for "Unleashing Network Potentials for Semantic Scene Completion"
8 stars 2 forks source link

分割模型与ssc性能的关系 #2

Open Zdie opened 3 months ago

Zdie commented 3 months ago

您好!AMMNet是一篇很优秀的文章,带给我一些思考,想请教一下,为什么segformer的分割性能比DeepLabv3好,但AMMNet训出来DeepLabv3的SSC性能更好呢,难道分割结果不能促进语义场景补全吗?感谢您抽空阅读,您的解答将对我至关重要!

fereenwong commented 3 months ago

这是因为在算法中,我们使用的DeepLabv3是在NYU数据集上pretrained。这里的对比不是为了凸显DeepLabv3的优秀性能(因为这是不公平的对比)。

论文中这个实验是为了和算法CVSformer做一个公平的对比(鉴于这是在我们这个工作之前最有性能的工作)。我们的实验验证了,基于更好地分割模型(pretrianed DeepLabv3),我们提出的AMMNet可以得到更好的实验性能。 具体可以参考原文: To facilitate a fair comparison with CVSformer [6], we alternatively incorporate the pretrained DeepLabv3 model as the image encoder, which was obtained by training for 1,000 epochs on the RGB image segmentation task and freeze its parameters.

另外你发的邮件中提到的希望上传pretrianed模型文件,这个我会在最近三天左右上传,请稍等

Zdie commented 3 months ago

好的,非常感谢您!另外想确定是DeepLabv3的性能更好吗?leaderboard上似乎是Segformer更好

fereenwong commented 3 months ago

好的,非常感谢您!另外想确定是DeepLabv3的性能更好吗?leaderboard上似乎是Segformer更好

这是因为在算法中,我们使用的DeepLabv3是在NYU数据集上pretrained。这里的对比不是为了凸显DeepLabv3的优秀性能(因为这是不公平的对比)。

论文中这个实验是为了和算法CVSformer做一个公平的对比(鉴于这是在我们这个工作之前最有性能的工作)。我们的实验验证了,基于更好地分割模型(pretrianed DeepLabv3),我们提出的AMMNet可以得到更好的实验性能。 具体可以参考原文: To facilitate a fair comparison with CVSformer [6], we alternatively incorporate the pretrained DeepLabv3 model as the image encoder, which was obtained by training for 1,000 epochs on the RGB image segmentation task and freeze its parameters.

另外你发的邮件中提到的希望上传pretrianed模型文件,这个我会在最近三天左右上传,请稍等

这是NYU数据集的训练好的checkpoint: checkpoint(有可能会因为代码整理前后名字变化出错,请谨慎使用,但模型参数是对的)

fereenwong commented 3 months ago

好的,非常感谢您!另外想确定是DeepLabv3的性能更好吗?leaderboard上似乎是Segformer更好

请仔细阅读我第一次给你的回复语句,你应该就能知道原因了