关于视频任务模型Plus版本

FoundationVision / GLEE

[CVPR2024 Highlight]GLEE: General Object Foundation Model for Images and Videos at Scale

MIT License

1.02k stars 82 forks source link

github界面只给了图片任务的R50和SwinL2个版本的模型，然后我在huggingface上demo的files里面看到了视频任务的R50版本（visual prompt，GLEE_vos_r50.pth），想问下作者能不能开源一下视频任务的SwinL版本，是不是因为huggingface上使用的GPU跑不动所以才没放SwinL版本？此外，关于使用的体验，我发现模型对于没学过的语言提示词效果很差，比如用custom-list不认识人头（head），输入human head才有可能给出比较差的结果。

FoundationVision / GLEE

关于视频任务模型Plus版本 #8