image-text data training

AILab-CVC / YOLO-World

[CVPR 2024] Real-Time Open-Vocabulary Object Detection

https://www.yoloworld.cc

GNU General Public License v3.0

4.41k stars 427 forks source link

image-text data training #325

Open GRD-Chang opened 4 months ago

GRD-Chang commented 4 months ago

您好，我注意到在论文中当λI=0时，可以使用image-text数据进行训练。我目前的数据集只有image和label，没有bouding box，能同样以这样的方式进行微调吗，应该怎么做呢？以及模型是否具有根据预训练的数据，在我新的数据集上泛化出bouding box的能力呢？

LaplaceSama commented 4 months ago

I don't understand. If you don't have bounding boxes, you are doing classification instead of detection, right?

wondervictor commented 4 months ago

Hi @GRD-Chang 这里是对image-text数据只计算分类loss，不计算回归loss，这里因为我们对image-text数据做了pseudo labeling，存在较大的噪声。如果目前您的数据没有物体框，可以尝试用YOLO-World较大的模型如X-1280去预先生成标注，之后结合一部分检测数据如COCO一起训练，效果会更好一些，不过对于自己的数据，我们建议还是计算回归损失（目前X-1280做标注效果还不错）。