OpenBMB / MiniCPM-V

MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
Apache License 2.0
11.95k stars 841 forks source link

OCR场景下无法返回全部的信息 #48

Closed charSLee013 closed 4 months ago

charSLee013 commented 5 months ago

首先非常感谢贵团队做出的卓越的贡献,我打算将其作为OCR使用读取图片上的内容并且给出完整的信息

但是尝试多个prompt之后还是无法有效的输出完整的信息,想请教下有什么解决方法或者正确的使用方式吗?

测试OCR图片源自 第一页

iShot2024-04-15 20 51 26
chuangzhidan commented 5 months ago

我也是同样的问题,无法正常做ocr任务,即便提取文字,常常只提取一行字几个字而已,不知道怎么ocr就当做亮点来宣传了,还需努力

zhaofangtao commented 5 months ago

就是看重了宣传的OCR能力,结果demo测试没法用啊,自己本地跑也运行不起来。还报错 no module named "transformers_modules_MniCPM-V-2"。

yaoyuanTHU commented 5 months ago

您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。

chuangzhidan commented 5 months ago

您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。

好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448

yaoyuanTHU commented 5 months ago

我们检查了Demo的稳定性,目前应该是可以正常使用。关于本地运行报错的问题,欢迎提供更多运行报错细节,我们可以帮忙查看解决~

yaoyuanTHU commented 5 months ago

您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。

好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448

您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。

chuangzhidan commented 5 months ago

您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。

好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448

您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。

也就是不遗漏细节信息了?没有识别出来,是因为没训过了。感谢作者的及时回复,蟹蟹!

yaoyuanTHU commented 5 months ago

您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。

好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448

您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。

也就是不遗漏细节信息了?没有识别出来,是因为没训过了。感谢作者的及时回复,蟹蟹!

是的,在图像编码阶段不会损失遗漏细节信息。目前我们在根据用户反馈持续完善模型能力,后续会发布升级版,欢迎持续关注!

chuangzhidan commented 5 months ago

您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。

好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448

您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。

也就是不遗漏细节信息了?没有识别出来,是因为没训过了。感谢作者的及时回复,蟹蟹!

是的,在图像编码阶段不会损失遗漏细节信息。目前我们在根据用户反馈持续完善模型能力,后续会发布升级版,欢迎持续关注!

是个明显的进步了,qwen-vl-chat比如resize后成448*448的分辨率就会遗失高分辨率图片中的很多信息。期待微调代码出来!