AILab-CVC / YOLO-World

[CVPR 2024] Real-Time Open-Vocabulary Object Detection
https://www.yoloworld.cc
GNU General Public License v3.0
4.41k stars 427 forks source link

image-text data training #325

Open GRD-Chang opened 4 months ago

GRD-Chang commented 4 months ago

image 您好,我注意到在论文中当λI=0时,可以使用image-text数据进行训练。我目前的数据集只有image和label,没有bouding box,能同样以这样的方式进行微调吗,应该怎么做呢?以及模型是否具有根据预训练的数据,在我新的数据集上泛化出bouding box的能力呢?

LaplaceSama commented 4 months ago

I don't understand. If you don't have bounding boxes, you are doing classification instead of detection, right?

wondervictor commented 4 months ago

Hi @GRD-Chang 这里是对image-text数据只计算分类loss,不计算回归loss,这里因为我们对image-text数据做了pseudo labeling,存在较大的噪声。如果目前您的数据没有物体框,可以尝试用YOLO-World较大的模型如X-1280去预先生成标注,之后结合一部分检测数据如COCO一起训练,效果会更好一些,不过对于自己的数据,我们建议还是计算回归损失(目前X-1280做标注效果还不错)。