IDEA-Research / GroundingDINO

[ECCV 2024] Official implementation of the paper "Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection"
https://arxiv.org/abs/2303.05499
Apache License 2.0
6.89k stars 697 forks source link

multi label inference problem #260

Open JeremyLin886 opened 11 months ago

JeremyLin886 commented 11 months ago

我在做自动驾驶场景下的目标检测任务,在使用多标签拼成的prompt时,遇到了两个问题:

  1. 随着text prompt长度的增加,检测性能会有所下降。例如当text prompt = "signal triangle"的时候,可以识别出图中的三角警示牌,但是当我尝试多类别的推理时,例如text prompt = "signal triangle . horizontal tyre . animal . cardboard box . stone .",原来可以识别的三角警示牌,就识别不出来了。我还不太清楚这是什么原因。
  2. 当我尝试用一个formula prompt(我不太确定是否是这个叫法)尝试检测一个较难描述的物体时,例如黄蓝色条纹锥桶:text prompt = “Yellow and blue striped cone bucket”,会检出“cone bucket”、“yellow cone bucket”等这样的物体,但这不是我想要的结果,我只想要“Yellow and blue striped cone bucket”,这个有办法实现吗?
1benwu1 commented 3 months ago

hey, i am faced with the same issue. how did u handle it? 我也是这个问题,您解决了么