Open mobguang opened 1 week ago
Similar question, does MiniCPM-V support downstream tasks such as referring expression comprehension (REC)
首先,是否存在识别某一类物体,或者ocr,rec等能力,只能在您的业务领域进行尝试。 第二。finetune及其dataset格式参照以下网站:https://github.com/OpenBMB/MiniCPM-V/blob/main/finetune/readme.md
@LDLINGLINGLING
谢谢回复。 在https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5 的demo上尝试确认图片左边的速度仪表盘下发是否存在红色图标(就是我用红框标识的区域内,这个红框是截图时加上去的),图片中没有任何红色图标,但模型还是反馈存在一个图标。看起来模型没理解我的问题。
所以,能否指导一下,对于这类问题prompt有没有最佳实践,谢谢。
我的建议是可能需要增加一些负样本训练去增加模型的理解,看上面的回复应该是找到了中间的那个警告符号,这个符号也是在140和0之间,只不过颜色搞错了
@LDLINGLINGLING 后来我接着让模型描述一下它识别出来的这个图标外形,它实际上识别的是屏幕中间那个黄色八边形中间有感叹号的图形,而不是专注在左边速度仪表盘数字0和140之间的区域。
所以我在提问时,要做哪些强化或调整,能否麻烦指导一下,谢谢。
其实prompt的话我是没有标准答案的
好的,谢谢。
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?
当前行为 | Current Behavior
目前可以通过微调使得MiniCPM-Llama3-V-2.5可以从特定图片中提取需要的文字。
想知道如何通过使得MiniCPM-Llama3-V-2.5能识别出图片中是否存在某个图案,例如,如何判断下面截图车辆仪表板是否存在红框中的图标。
两个问题: **1. 这类识别,是否有建议的prompt;
感谢指导!