THUDM / CogVLM

a state-of-the-art-level open visual language model | 多模态预训练模型
Apache License 2.0
6.12k stars 417 forks source link

我该使用什么格式的输入来用模型进行visual grounding 任务? #483

Open lxiaohaung opened 6 months ago

lxiaohaung commented 6 months ago

我没有找到一个能稳定使得模型输出[x1,y1,x2,y2]的bounding box的方法,请问当时evaluation的代码还有吗

lxiaohaung commented 6 months ago

使用的是cogvlm-grounding-generalist-v1.1的cli_demo, 截屏2024-05-23 下午11 43 06