MediaBrain-SJTU / MVFA-AD

[CVPR2024 Highlight] Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images
MIT License
110 stars 16 forks source link

关于文中提到的feature projector的一些问题 #6

Open jeremisty99 opened 4 months ago

jeremisty99 commented 4 months ago

您好,我在了解这篇工作的过程中,发现adapter最终的返回值为pooled, seg_patch_tokens, det_patchtokens三部分 我理解的pooled应该就是对应着文中提到的投影器处理后的结果 但是在外层的model调用中 我发现均为 , seg_patch_tokens, det_patch_tokens = model(image) 请问是pooled这个特征并没有得到使用吗 那么文中提到的这个投影器在代码中具体是哪里发挥作用的 非常感谢!