xrli-U / MuSc

This is an official PyTorch implementation for "MuSc : Zero-Shot Industrial Anomaly Classification and Segmentation with Mutual Scoring of the Unlabeled Images" (MuSc ICLR2024).
MIT License
207 stars 12 forks source link

musc模型进一步细节 #8

Open tianyi-1349 opened 2 months ago

tianyi-1349 commented 2 months ago

利用用未标记测试图像,提出了一种基于未标记图像相互评分进行分类与分割,这确实是一种新机制。

我想请问:这是属于:无监督及自监督的思路吧?(通常是利用:正常合格的产品,即正样本去训练。)

从论文中,我的感悟,你这个思路,好像是类似:基于合成的模型?提取VIT特征,然后分区域打上标签?然后把合成前后的图像,互相打分?

请问:引用Dino V2作为骨干,是否效果最优呢?

另外 :你论文中提到的RsCIN 有3个局限性:

1:对其骨干网中不包含图像级特征的一些单类方法,需要另一个骨干网来提取图像级特征。

2:对于分类结果非常高的方法,RsCIN 对图像级特征表示的改进(潜力空间)有限?

3:你们发现,你们的方法和 WinCLIP 都受到方向或比例不一致的影响。原因是使用固定的预训练视觉Transformer 作为特征提取器,在预训练过程中,Transformer 只对方向和比例进行了轻微的数据增强。因此,我们都不能有效地解决方向或比例不一致的问题。APRIL-GAN 的 AC 分数也有所下降,但 AS 分数有所提高。猜测原因是 APRIL-GAN 使用额外的训练集来优化 AS。

我很有兴趣你们团队是如何持续改进,解决以上问题的。当然,这样就离实际工业化落地更进一步了。

xrli-U commented 2 months ago

您好,如果可以的话,对于一些专有名词可以使用英文进行表述吗?我不太理解您提到的“基于合成的模型”是什么意思,是指generative model吗? 在异常检测任务中,正如您所说的,无监督(unsupervised)设置通常指的是使用大量正常图像进行训练,然后在无标签的测试集上进行测试。 使用dino_v2作为特征提取器在MVTec AD数据集上的效果确实会更好,详情可查看我们的README。 您上面提到的RsCIN的第3个“局限性”,这个并不属于RsCIN的局限性,RsCIN是用于优化异常检测结果的模块。 如果有更多关于论文和代码的问题,您可以通过我的邮箱xrli_plus@hust.edu.cn与我联系,我能够更加及时地进行回复!