图片处理 - Githubissues

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

26.89k stars 2.7k forks source link

图片处理部分是怎样的

本项目使用 PaddleOCR 、 RapidOCR 等开源OCR引擎，作为文字识别核心组件。

如何高效的定位图片中的有效区域并进行文字识别？需要用到什么样的算法呢？

您可参阅上述项目（尤其是PaddleOCR）的文档和官网来获取详细的技术细节。

简而言之，OCR引擎分为三部分，det文本检测负责查找图片中可能存在文本的区域，cls方向分类负责矫正文本方向，rec文字识别负责识别小区域中的句子。主要模型结构为编码解码器架构的CRNN，用CTC实现非固定长度序列输出。

hiroi-sora / Umi-OCR