OCR场景下无法返回全部的信息

OpenBMB / MiniCPM-V

MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone

Apache License 2.0

11.95k stars 841 forks source link

OCR场景下无法返回全部的信息 #48

Closed charSLee013 closed 4 months ago

charSLee013 commented 5 months ago

首先非常感谢贵团队做出的卓越的贡献，我打算将其作为OCR使用读取图片上的内容并且给出完整的信息

但是尝试多个prompt之后还是无法有效的输出完整的信息，想请教下有什么解决方法或者正确的使用方式吗？

测试OCR图片源自第一页

chuangzhidan commented 5 months ago

我也是同样的问题，无法正常做ocr任务，即便提取文字，常常只提取一行字几个字而已，不知道怎么ocr就当做亮点来宣传了，还需努力

zhaofangtao commented 5 months ago

就是看重了宣传的OCR能力，结果demo测试没法用啊，自己本地跑也运行不起来。还报错 no module named "transformers_modules_MniCPM-V-2"。

yaoyuanTHU commented 5 months ago

您好，感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间，我们会在下一版更新中着重改进。

chuangzhidan commented 5 months ago

您好，感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间，我们会在下一版更新中着重改进。

好奇问下，宣称是1344x1344的分辨率了，为什么config文件的 "image_size": 448和scale_resolution都是448

yaoyuanTHU commented 5 months ago

我们检查了Demo的稳定性，目前应该是可以正常使用。关于本地运行报错的问题，欢迎提供更多运行报错细节，我们可以帮忙查看解决~

yaoyuanTHU commented 5 months ago

您好，感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间，我们会在下一版更新中着重改进。

好奇问下，宣称是1344x1344的分辨率了，为什么config文件的 "image_size": 448和scale_resolution都是448

您好，我们通过LLaVA-UHD技术，将高清图分解为更小尺寸切片进行编码，每个切片分辨率为448x448。感谢反馈，这里变量命名可能有些误导，我们会完善规范变量命名。

chuangzhidan commented 5 months ago

您好，感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间，我们会在下一版更新中着重改进。

好奇问下，宣称是1344x1344的分辨率了，为什么config文件的 "image_size": 448和scale_resolution都是448

您好，我们通过LLaVA-UHD技术，将高清图分解为更小尺寸切片进行编码，每个切片分辨率为448x448。感谢反馈，这里变量命名可能有些误导，我们会完善规范变量命名。

也就是不遗漏细节信息了？没有识别出来，是因为没训过了。感谢作者的及时回复，蟹蟹！

yaoyuanTHU commented 5 months ago

您好，感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间，我们会在下一版更新中着重改进。

好奇问下，宣称是1344x1344的分辨率了，为什么config文件的 "image_size": 448和scale_resolution都是448

您好，我们通过LLaVA-UHD技术，将高清图分解为更小尺寸切片进行编码，每个切片分辨率为448x448。感谢反馈，这里变量命名可能有些误导，我们会完善规范变量命名。

也就是不遗漏细节信息了？没有识别出来，是因为没训过了。感谢作者的及时回复，蟹蟹！

是的，在图像编码阶段不会损失遗漏细节信息。目前我们在根据用户反馈持续完善模型能力，后续会发布升级版，欢迎持续关注！

chuangzhidan commented 5 months ago

您好，感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间，我们会在下一版更新中着重改进。

好奇问下，宣称是1344x1344的分辨率了，为什么config文件的 "image_size": 448和scale_resolution都是448

您好，我们通过LLaVA-UHD技术，将高清图分解为更小尺寸切片进行编码，每个切片分辨率为448x448。感谢反馈，这里变量命名可能有些误导，我们会完善规范变量命名。

也就是不遗漏细节信息了？没有识别出来，是因为没训过了。感谢作者的及时回复，蟹蟹！

是的，在图像编码阶段不会损失遗漏细节信息。目前我们在根据用户反馈持续完善模型能力，后续会发布升级版，欢迎持续关注！

是个明显的进步了，qwen-vl-chat比如resize后成448*448的分辨率就会遗失高分辨率图片中的很多信息。期待微调代码出来！