multi label inference problem

我在做自动驾驶场景下的目标检测任务，在使用多标签拼成的prompt时，遇到了两个问题：

随着text prompt长度的增加，检测性能会有所下降。例如当text prompt = "signal triangle"的时候，可以识别出图中的三角警示牌，但是当我尝试多类别的推理时，例如text prompt = "signal triangle . horizontal tyre . animal . cardboard box . stone ."，原来可以识别的三角警示牌，就识别不出来了。我还不太清楚这是什么原因。
当我尝试用一个formula prompt(我不太确定是否是这个叫法)尝试检测一个较难描述的物体时，例如黄蓝色条纹锥桶：text prompt = “Yellow and blue striped cone bucket”，会检出“cone bucket”、“yellow cone bucket”等这样的物体，但这不是我想要的结果，我只想要“Yellow and blue striped cone bucket”，这个有办法实现吗？

IDEA-Research / GroundingDINO