如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案

OpenBMB / MiniCPM-V

MiniCPM-Llama3-V 2.5: A GPT-4V Level Multimodal LLM on Your Phone

Apache License 2.0

7.82k stars 543 forks source link

如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

Open mobguang opened 1 week ago

mobguang commented 1 week ago

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

[X] 我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

[X] 我已经搜索过FAQ | I have searched FAQ

当前行为 | Current Behavior

目前可以通过微调使得MiniCPM-Llama3-V-2.5可以从特定图片中提取需要的文字。

想知道如何通过使得MiniCPM-Llama3-V-2.5能识别出图片中是否存在某个图案，例如，如何判断下面截图车辆仪表板是否存在红框中的图标。

两个问题： **1. 这类识别，是否有建议的prompt；

如何通过微调来帮助MiniCPM-Llama3-V-2.5提升这类问题的识别率，dataset.json的格式是怎样的；**

感谢指导！

dashboard

zhwuwuwu commented 6 days ago

Similar question, does MiniCPM-V support downstream tasks such as referring expression comprehension (REC)

LDLINGLINGLING commented 3 days ago

首先，是否存在识别某一类物体，或者ocr，rec等能力，只能在您的业务领域进行尝试。第二。finetune及其dataset格式参照以下网站：https://github.com/OpenBMB/MiniCPM-V/blob/main/finetune/readme.md

mobguang commented 2 days ago

@LDLINGLINGLING

谢谢回复。在https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5 的demo上尝试确认图片左边的速度仪表盘下发是否存在红色图标（就是我用红框标识的区域内，这个红框是截图时加上去的），图片中没有任何红色图标，但模型还是反馈存在一个图标。看起来模型没理解我的问题。

所以，能否指导一下，对于这类问题prompt有没有最佳实践，谢谢。

LDLINGLINGLING commented 2 days ago

我的建议是可能需要增加一些负样本训练去增加模型的理解，看上面的回复应该是找到了中间的那个警告符号，这个符号也是在140和0之间，只不过颜色搞错了

mobguang commented 22 hours ago

@LDLINGLINGLING 后来我接着让模型描述一下它识别出来的这个图标外形，它实际上识别的是屏幕中间那个黄色八边形中间有感叹号的图形，而不是专注在左边速度仪表盘数字0和140之间的区域。

所以我在提问时，要做哪些强化或调整，能否麻烦指导一下，谢谢。

LDLINGLINGLING commented 17 hours ago

其实prompt的话我是没有标准答案的

mobguang commented 16 minutes ago

好的，谢谢。