THUDM / CogCoM

Other
146 stars 9 forks source link

如何控制 grounding 中模型输出的 bounding box 数量 #17

Open sleepyshep opened 5 months ago

sleepyshep commented 5 months ago

Hi, 感谢你们开创性的工作!我注意到 CogCom 通过连接 grounding dino 实现 grouding,请问怎么控制模型输出的 bounding box 数量呢,目前模型只输出 top1 的 bounding box

qijimrc commented 5 months ago

@sleepyshep Hi,感谢你对我们工作的关注和认可。在CoM训练数据构造阶段,我们基于GroundingDINO来识别manipulation指定的object的多个boxes;在模型推理阶段,我们直接让CogCoM输出指定object的多个boxes,以[[x1,y1,x2,y2],[x1,y1,x2,y2]]的形式表示(如果该object存在多个框且模型输出正确)。 如果输出遗漏了boxes,可能是CogCoM识别失败导致,方便的话可以share一下你的case我进行测试。