关于online demo里面用到的模型

AILab-CVC / YOLO-World

[CVPR 2024] Real-Time Open-Vocabulary Object Detection

https://www.yoloworld.cc

GNU General Public License v3.0

4.64k stars 449 forks source link

关于online demo里面用到的模型 #245

Open XLMore opened 6 months ago

XLMore commented 6 months ago

你好，请问online demo里面用到的模型配置和权重文件分别是哪个呢？

wondervictor commented 6 months ago

使用的YOLO-World-v2-L模型，README中提供了配置和权重。

XLMore commented 6 months ago

使用的YOLO-World-v2-L模型，README中提供了配置和权重。

screenshot-20240416-162909 是这个吗？我这边运行：python demo.py configs/pretrain/yolo_world_v2_l_clip_large_vlpan_bn_2e-3_100e_4x8gpus_obj365v1_goldg_train_800ft_lvis_minival.py /workspace/data/models/yolo_world_v2_l_clip_large_vlpan_bn_2e-3_100e_4x8gpus_obj365v1_goldg_train_800ft_lvis_minival/yolo_world_v2_l_clip_large_o365v1_goldg_pretrain_800ft-9df82e55.pth，跑出来的结果跟https://www.yoloworld.cc/这个网址中的demo结果不一致，是不是iou阈值和置信度阈值设置有不同呢？

wondervictor commented 6 months ago

@XLMore 这个模型和hf demo的模型不一致，你使用的这个模型会更强，主要在两方面： 1) 这个模型采用了CLIP-Large模型，效果比CLIP-Base要好 2) 这个模型采用了800的分辨率，对于小物体效果会更好

目前公开的模型中，L-CLIP-base-640这个模型是和demo对应的，但是由于目前GitHub的模型都经过复现训练，所以不一定完全对应demo的结果，存在微小的差异。

XLMore commented 6 months ago

@XLMore 这个模型和hf demo的模型不一致，你使用的这个模型会更强，主要在两方面：

这个模型采用了CLIP-Large模型，效果比CLIP-Base要好

这个模型采用了800的分辨率，对于小物体效果会更好

目前公开的模型中，L-CLIP-base-640这个模型是和demo对应的，但是由于目前GitHub的模型都经过复现训练，所以不一定完全对应demo的结果，存在微小的差异。

我在本地部署了以下模型： screenshot-20240416-165036 这个是本地模型跑出来的结果： screenshot-20240416-165001 这个是https://www.yoloworld.cc/中demo的结果： screenshot-20240416-164947 可以看出差别还是挺大的，是不是哪里没有对齐呢？

wondervictor commented 6 months ago

建议多可视化一些样本，这两个模型是不同阶段训练的模型，设置上几乎一致，指标也是接近，应该不会存在较大的差异。