THUDM / CogVLM2

GPT4V-level open-source multi-modal model based on Llama3-8B
Apache License 2.0
2.02k stars 134 forks source link

CogVLM2如何完成图像目标检测或者分割任务? #84

Closed FanZhang91 closed 3 months ago

FanZhang91 commented 3 months ago

System Info / 系統信息

我想用CogVLM2模型进行图像目标检测任务。运行cli_demo.py脚本后,无论我输入什么图像数据模型输出的都是promt中包含示例的结果(对象左上角和右下角坐标)。请问能给出关于目标检测/分割任务具体的prompt信息吗?

Who can help? / 谁可以帮助到您?

Information / 问题信息

Reproduction / 复现过程

Expected behavior / 期待表现

zRzRzRzRzRzRzR commented 3 months ago

cogvlm2暂时未提供目标检测和语义分割的版本。 cogvlm前一代作品有grounding模型根据用户输入回复bbx,但是也不能返回像素级的分割。 之后可能会有 cogvlm2 grounding 的相关计划

FanZhang91 commented 3 months ago

好的,感谢您的回复。

在 2024-06-07 09:40:03,"zR" @.***> 写道:

cogvlm2暂时未提供目标检测和语义分割的版本。 cogvlm前一代作品有grounding模型根据用户输入回复bbx,但是也不能返回像素级的分割

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>