Closed charSLee013 closed 4 months ago
我也是同样的问题,无法正常做ocr任务,即便提取文字,常常只提取一行字几个字而已,不知道怎么ocr就当做亮点来宣传了,还需努力
就是看重了宣传的OCR能力,结果demo测试没法用啊,自己本地跑也运行不起来。还报错 no module named "transformers_modules_MniCPM-V-2"。
您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。
您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。
好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448
我们检查了Demo的稳定性,目前应该是可以正常使用。关于本地运行报错的问题,欢迎提供更多运行报错细节,我们可以帮忙查看解决~
您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。
好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448
您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。
您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。
好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448
您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。
也就是不遗漏细节信息了?没有识别出来,是因为没训过了。感谢作者的及时回复,蟹蟹!
您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。
好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448
您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。
也就是不遗漏细节信息了?没有识别出来,是因为没训过了。感谢作者的及时回复,蟹蟹!
是的,在图像编码阶段不会损失遗漏细节信息。目前我们在根据用户反馈持续完善模型能力,后续会发布升级版,欢迎持续关注!
您好,感谢反馈问题。目前MiniCPM-V 2.0在全文OCR输出方面确实有较大提升空间,我们会在下一版更新中着重改进。
好奇问下,宣称是1344x1344的分辨率了,为什么config文件的 "image_size": 448和scale_resolution都是448
您好,我们通过LLaVA-UHD技术,将高清图分解为更小尺寸切片进行编码,每个切片分辨率为448x448。感谢反馈,这里变量命名可能有些误导,我们会完善规范变量命名。
也就是不遗漏细节信息了?没有识别出来,是因为没训过了。感谢作者的及时回复,蟹蟹!
是的,在图像编码阶段不会损失遗漏细节信息。目前我们在根据用户反馈持续完善模型能力,后续会发布升级版,欢迎持续关注!
是个明显的进步了,qwen-vl-chat比如resize后成448*448的分辨率就会遗失高分辨率图片中的很多信息。期待微调代码出来!
首先非常感谢贵团队做出的卓越的贡献,我打算将其作为OCR使用读取图片上的内容并且给出完整的信息
但是尝试多个prompt之后还是无法有效的输出完整的信息,想请教下有什么解决方法或者正确的使用方式吗?