OpenBMB / MiniCPM-V

MiniCPM-Llama3-V 2.5: A GPT-4V Level Multimodal LLM on Your Phone
Apache License 2.0
7.82k stars 543 forks source link

如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

Open mobguang opened 1 week ago

mobguang commented 1 week ago

是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

目前可以通过微调使得MiniCPM-Llama3-V-2.5可以从特定图片中提取需要的文字。

想知道如何通过使得MiniCPM-Llama3-V-2.5能识别出图片中是否存在某个图案,例如,如何判断下面截图车辆仪表板是否存在红框中的图标。

两个问题: **1. 这类识别,是否有建议的prompt;

  1. 如何通过微调来帮助MiniCPM-Llama3-V-2.5提升这类问题的识别率,dataset.json的格式是怎样的;**

感谢指导!

dashboard

zhwuwuwu commented 6 days ago

Similar question, does MiniCPM-V support downstream tasks such as referring expression comprehension (REC)

LDLINGLINGLING commented 3 days ago

首先,是否存在识别某一类物体,或者ocr,rec等能力,只能在您的业务领域进行尝试。 第二。finetune及其dataset格式参照以下网站:https://github.com/OpenBMB/MiniCPM-V/blob/main/finetune/readme.md

mobguang commented 2 days ago

@LDLINGLINGLING

谢谢回复。 在https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5 的demo上尝试确认图片左边的速度仪表盘下发是否存在红色图标(就是我用红框标识的区域内,这个红框是截图时加上去的),图片中没有任何红色图标,但模型还是反馈存在一个图标。看起来模型没理解我的问题。

所以,能否指导一下,对于这类问题prompt有没有最佳实践,谢谢。

image

LDLINGLINGLING commented 2 days ago

我的建议是可能需要增加一些负样本训练去增加模型的理解,看上面的回复应该是找到了中间的那个警告符号,这个符号也是在140和0之间,只不过颜色搞错了

mobguang commented 22 hours ago

@LDLINGLINGLING 后来我接着让模型描述一下它识别出来的这个图标外形,它实际上识别的是屏幕中间那个黄色八边形中间有感叹号的图形,而不是专注在左边速度仪表盘数字0和140之间的区域。

所以我在提问时,要做哪些强化或调整,能否麻烦指导一下,谢谢。

image

LDLINGLINGLING commented 17 hours ago

其实prompt的话我是没有标准答案的

mobguang commented 16 minutes ago

好的,谢谢。