hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
24.51k stars 2.48k forks source link

希望可以返回每个字符的坐标和置信度 #385

Closed xudaisong closed 5 months ago

xudaisong commented 6 months ago

希望可以返回每个字符的坐标和置信度

hiroi-sora commented 6 months ago

目前只有很少的OCR引擎采用单字模型结构,即以单个字符为单位进行识别。单字模型能原生支持输出字符坐标。

更多的主流OCR引擎,使用的是 编码器+解码器 的模型结构。它们以行/文本块/序列向量为单位进行识别。

image

编码器+解码器 结构原生不一定支持输出单个字符的坐标,或者需要一定的转换步骤才能提取到。

Umi-OCR 为了兼容不同结构的引擎插件,选择了最通用的接口格式,即以行/文本块为最小单位。因此,暂时无法支持输出单字坐标。

xudaisong commented 6 months ago

那请问你知道哪个软件可以实现返回单个字符的坐标吗,谢谢。

hiroi-sora commented 6 months ago

据我所知,似乎没有开源/离线组件支持单字分割。

以下两个在线商业服务支持: 阿里云OCR 腾讯云OCR