Closed xudaisong closed 5 months ago
目前只有很少的OCR引擎采用单字模型结构,即以单个字符为单位进行识别。单字模型能原生支持输出字符坐标。
更多的主流OCR引擎,使用的是 编码器+解码器
的模型结构。它们以行/文本块/序列向量为单位进行识别。
编码器+解码器
结构原生不一定支持输出单个字符的坐标,或者需要一定的转换步骤才能提取到。
Umi-OCR 为了兼容不同结构的引擎插件,选择了最通用的接口格式,即以行/文本块为最小单位。因此,暂时无法支持输出单字坐标。
那请问你知道哪个软件可以实现返回单个字符的坐标吗,谢谢。
希望可以返回每个字符的坐标和置信度