hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
26.89k stars 2.7k forks source link

图片处理 #697

Open renwuliang opened 1 week ago

renwuliang commented 1 week ago

作者您好,请问在图片处理部分是怎样的,如何高效的定位图片中的有效区域并进行文字识别?需要用到什么样的算法呢?

hiroi-sora commented 1 week ago

图片处理部分是怎样的

本项目使用 PaddleOCRRapidOCR 等开源OCR引擎,作为文字识别核心组件。

如何高效的定位图片中的有效区域并进行文字识别?需要用到什么样的算法呢?

您可参阅上述项目(尤其是PaddleOCR)的文档和官网来获取详细的技术细节。

简而言之,OCR引擎分为三部分,det文本检测 负责查找图片中可能存在文本的区域,cls方向分类 负责矫正文本方向,rec文字识别 负责识别小区域中的句子。主要模型结构为编码解码器架构的CRNN,用CTC实现非固定长度序列输出。