AILab-CVC / YOLO-World

[CVPR 2024] Real-Time Open-Vocabulary Object Detection
https://www.yoloworld.cc
GNU General Public License v3.0
4.64k stars 449 forks source link

关于online demo里面用到的模型 #245

Open XLMore opened 6 months ago

XLMore commented 6 months ago

你好,请问online demo里面用到的模型配置和权重文件分别是哪个呢?

wondervictor commented 6 months ago

使用的YOLO-World-v2-L模型,README中提供了配置和权重。

XLMore commented 6 months ago

使用的YOLO-World-v2-L模型,README中提供了配置和权重。

screenshot-20240416-162909 是这个吗?我这边运行:python demo.py configs/pretrain/yolo_world_v2_l_clip_large_vlpan_bn_2e-3_100e_4x8gpus_obj365v1_goldg_train_800ft_lvis_minival.py /workspace/data/models/yolo_world_v2_l_clip_large_vlpan_bn_2e-3_100e_4x8gpus_obj365v1_goldg_train_800ft_lvis_minival/yolo_world_v2_l_clip_large_o365v1_goldg_pretrain_800ft-9df82e55.pth,跑出来的结果跟https://www.yoloworld.cc/这个网址中的demo结果不一致,是不是iou阈值和置信度阈值设置有不同呢?

wondervictor commented 6 months ago

@XLMore 这个模型和hf demo的模型不一致,你使用的这个模型会更强,主要在两方面: 1) 这个模型采用了CLIP-Large模型,效果比CLIP-Base要好 2) 这个模型采用了800的分辨率,对于小物体效果会更好

目前公开的模型中,L-CLIP-base-640这个模型是和demo对应的,但是由于目前GitHub的模型都经过复现训练,所以不一定完全对应demo的结果,存在微小的差异。

XLMore commented 6 months ago

@XLMore 这个模型和hf demo的模型不一致,你使用的这个模型会更强,主要在两方面:

  1. 这个模型采用了CLIP-Large模型,效果比CLIP-Base要好
  2. 这个模型采用了800的分辨率,对于小物体效果会更好

目前公开的模型中,L-CLIP-base-640这个模型是和demo对应的,但是由于目前GitHub的模型都经过复现训练,所以不一定完全对应demo的结果,存在微小的差异。

我在本地部署了以下模型: screenshot-20240416-165036 这个是本地模型跑出来的结果: screenshot-20240416-165001 这个是https://www.yoloworld.cc/中demo的结果: screenshot-20240416-164947 可以看出差别还是挺大的,是不是哪里没有对齐呢?

wondervictor commented 6 months ago

建议多可视化一些样本,这两个模型是不同阶段训练的模型,设置上几乎一致,指标也是接近,应该不会存在较大的差异。