CASIA-IVA-Lab / AnomalyGPT

[AAAI 2024 Oral] AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models
https://anomalygpt.github.io
Other
773 stars 94 forks source link

Few-shot推断中是否利用了文本与图像间的匹配 #89

Open WenDongyp opened 5 months ago

WenDongyp commented 5 months ago

作者您好,非常感谢您的工作。我看代码中few-shot与无监督下似乎是两条不同的分支?利用了正常图像做few-shot似乎就不能利用经过训练后文本与图像之间的匹配了,也就是说few-shot与文本匹配两者只能取其一吗?望解答!

Myzhao1999 commented 5 months ago

我看了代码,似乎也发现了这个问题。好像few-shot下,只利用了经过image encoder之后的query image和normal image之间的相似度来计算最终的pixel-level auc 和image-level auc。这种情况下,对于论文中的Table 4. 有一些不理解。few-shot的pixel-level auc 和image-level auc不应该只跟image encoder有关系吗?为什么会受其他模块的干扰? 不知道同学你看明白了吗?可以的话能否加微信交流一下 MyZhao1999

Myzhao1999 commented 5 months ago

@FantasticGNU 不好意思打扰您了同学,能否请您帮忙解答一下这个问题呢?