Open GRD-Chang opened 4 months ago
I don't understand. If you don't have bounding boxes, you are doing classification instead of detection, right?
Hi @GRD-Chang 这里是对image-text数据只计算分类loss,不计算回归loss,这里因为我们对image-text数据做了pseudo labeling,存在较大的噪声。如果目前您的数据没有物体框,可以尝试用YOLO-World较大的模型如X-1280去预先生成标注,之后结合一部分检测数据如COCO一起训练,效果会更好一些,不过对于自己的数据,我们建议还是计算回归损失(目前X-1280做标注效果还不错)。
您好,我注意到在论文中当λI=0时,可以使用image-text数据进行训练。我目前的数据集只有image和label,没有bouding box,能同样以这样的方式进行微调吗,应该怎么做呢?以及模型是否具有根据预训练的数据,在我新的数据集上泛化出bouding box的能力呢?