wanghao9610 / OV-DINO

Official implementation of OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion
https://wanghao9610.github.io/OV-DINO
Apache License 2.0
240 stars 13 forks source link

about prompt #24

Closed leoxxxxxD closed 2 months ago

leoxxxxxD commented 2 months ago

在demo中测试这张图时“https://www.ningmeng68.com/uploadfiles/pictures/project/20160617143611_3593.png”,prompt设为"person"出现很多漏检,设为"person, head"完全没检出了,随机测试其他图也是类似的结果,感觉相比grounding-dino在zero-shot方面要差很多,是哪里没设置正确嘛

wanghao9610 commented 2 months ago

你好,你可以调整一下score_threshold测试一下。一般比较低的threshold会增加召回率,但准确率会下降(Grouding dino有两个threhold,默认都比较低,ovdino默认的是0.5)。 我在后台看了一下你的测试数据,这应该是一个bad case,而且大多都是国内的图像,我们使用的是公开数据集进行训练的,其中包含的国内数据比较少,因此在国内的一些人物数据上表现不好也是正常的。 你如果需要在大量的国内数据上应用,或许你可以尝试微调一下,效果应该会好很多。

wanghao9610 commented 2 months ago

另外,对于一些目标比较密集的数据,如果没有针对性的结构设计或后处理,检测的效果一般都不太好。