Few-shot推断中是否利用了文本与图像间的匹配

CASIA-IVA-Lab / AnomalyGPT

[AAAI 2024 Oral] AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

https://anomalygpt.github.io

Other

807 stars 100 forks source link

Few-shot推断中是否利用了文本与图像间的匹配 #89

Open WenDongyp opened 6 months ago

WenDongyp commented 6 months ago

作者您好，非常感谢您的工作。我看代码中few-shot与无监督下似乎是两条不同的分支？利用了正常图像做few-shot似乎就不能利用经过训练后文本与图像之间的匹配了，也就是说few-shot与文本匹配两者只能取其一吗？望解答！

Myzhao1999 commented 6 months ago

我看了代码，似乎也发现了这个问题。好像few-shot下，只利用了经过image encoder之后的query image和normal image之间的相似度来计算最终的pixel-level auc 和image-level auc。这种情况下，对于论文中的Table 4. 有一些不理解。few-shot的pixel-level auc 和image-level auc不应该只跟image encoder有关系吗？为什么会受其他模块的干扰？不知道同学你看明白了吗？可以的话能否加微信交流一下 MyZhao1999

Myzhao1999 commented 6 months ago

@FantasticGNU 不好意思打扰您了同学，能否请您帮忙解答一下这个问题呢？