-
### MaxKB 版本
v1.2.0
### 请描述您的需求或者改进建议
首先感谢开发者开源这么好的项目!
有很多的PDF文档都是扫描件,MaxKB是无法正常识别的。
### 请描述你建议的实现方案
希望可以加入PDF的OCR功能,可以对PDF导入后先进行OCR识别:一般都是把PDF每一页转换为图片,然后进行识别。
可以参考这个开源项目:https://github.com/hir…
-
### Issues
- [X] I have browsed through the Issues. 我已浏览过Issues,确定没有重复提问。
### Umi-OCR version 程序版本
2.1.2
### Windows version 系统版本
win10
### OCR plugins Used 使用的OCR插件
PaddleOCR
### Reproduction…
Tau77 updated
4 months ago
-
### Issues
- [X] I have browsed through the Issues. 我已浏览过Issues,确定没有重复提问。
### Umi-OCR version 程序版本
2.1.2
### Windows version 系统版本
win10
### OCR plugins Used 使用的OCR插件
PaddleOCR
### Reproduction…
-
下面这张图,总是识别不到这两行文本
《人,王露经常会选用这样的开场白:“您老人家好啊,听说今》
《一律的“你好”“久仰”更能打动人心,为接下来的交流创造出》
![1](https://github.com/user-attachments/assets/041301e3-1cab-4bf5-af93-07197c980d44)
但我用Umi-OCR是能正常识别到的
下面是我识别异常返…
-
https://github.com/hiroi-sora/Umi-OCR_v2/assets/40064819/8381f8a3-677d-415d-a44c-aed891ba3bc0
![image](https://github.com/hiroi-sora/Umi-OCR_v2/assets/40064819/80a43d87-befd-4b4e-994c-138924215cf7)…
-
任务提前结束。[Error] OCR init fail. Argd: {'enable_mkldnn': True, 'cpu_threads': 1, 'config_path': 'models/config_chinese.txt', 'cls': True, 'use_angle_cls': True, 'limit_side_len': 960}\nOCR init fail.
xkuna updated
2 months ago
-
### Issues
- [X] I have browsed through the Issues. 我已浏览过Issues,确定没有重复的建议。
### Expected behavior 预期的功能
![企业微信截图_17289574077892](https://github.com/user-attachments/assets/af60fe86-54c1-47de-944e-…
-
### Issues
- [X] I have browsed through the Issues. 我已浏览过Issues,确定没有重复的建议。
### Expected behavior 预期的功能
rec模型,有时实心点句号 `.` 会被识别成 半角逗号 `,` 。有没有什么办法?类似的情况,还有英文大小写等。O0, Ss, Xx之类近似的
![image](h…
-
能够切换版本,以加速识别效率。
-
各位开发者好,我是 [Umi-OCR](https://github.com/hiroi-sora/Umi-OCR) 的作者。
Umi-OCR 是一个开源的OCR软件,目前正在开发PDF扫描件识别的功能。其中的一个难点在于,OCR得到的文本块的顺序,往往与实际阅读顺序不符合,特别是在多栏布局的文档中。我需要根据文档的排版,正确区分出不同列,按实际阅读顺序为文本块进行排序。
pdf2do…