MendelXu / SAN

Open-vocabulary Semantic Segmentation
https://mendelxu.github.io/SAN/
MIT License
295 stars 27 forks source link

关于评估mIoU时背景类别的考虑 #28

Closed Wyxdm closed 10 months ago

Wyxdm commented 11 months ago

尊敬的作者: 您好!感谢您做出的优秀工作并开源了代码。 这边有一个小问题想请教您一下,在推演代码中,我观察到每次迭代输出的预测logits的维度是,以VOC2012为例,输出的logit是20 x H x W。这在mIoU的评估中背景类别(在gt中标注为255)似乎没有参与mIoU计算。请问这种操作是否会导致性能虚高? 因为在通过argmax可视化logits的过程中我观察到,对应类别的预测mask较好地覆盖了但远远超过了对应object的区域。但是最终评测mIoU仍然达到了90+。

期待您的解答! 祝好!

MendelXu commented 11 months ago

抱歉,回复晚了。这是因为预测的时候只有20个前景类的类别分数,但是结果预测是通过argmax取得的,会强行给所有像素赋予一个前景类的类。如果想在miou计算的时候评估背景类,就必须在分类的时候也提供背景类才比较合理。