-
现实操作中,除了直接操作图片外,也有不少扫描过的pdf文档,不能直接提取文字。需要先转化成图片再OCR。如果能在打开文件夹选取图片时多加一个pdf类型,并在开始任务时自动先转化成临时同名图片文件,任务完成后再自动删除临时图片文件,那就厉害了!这个建议可能有点过高,作者量力而行就是了,谢谢!
-
PaddleOCR增加了表格识别的模块,Umi-OCR能否考虑进一步引入表格识别的功能?
PaddleOCR新发版v2.2:开源版面分析与轻量化表格识别 - 知乎
https://zhuanlan.zhihu.com/p/397127928
-
Podle
https://www.loc.gov/standards/alto/ a https://github.com/altoxml/documentation/wiki/Versions existují následující verze ALTO:
3.1:
ns: http://www.loc.gov/standards/alto/ns-v3#
xsd: https…
-
比如calamari之类的,感谢
-
### Prerequisites
- [X] I have written a descriptive issue title.
- [X] I have searched all issues/PRs to ensure it has not already been reported or fixed.
- [X] I have verified that I am using t…
-
批量OCR,语言简体中文,保存文件类型Excel,txt显示没问题,但是Excel打开后中文乱码、数字正常,尝试过Excel改编码和字体,但是无效。请问下这个要怎么解决?
![image](https://github.com/hiroi-sora/Umi-OCR/assets/39548509/c710da78-271a-4005-b87b-ad734ba0cb52)
-
64位Win7,启动程序报如下错误:
```
> ---------------------------
ERROR
---------------------------
Cannot find Py_Main() in:
\Umi-OCR_Rapid_win7_dev_20230925\UmiOCR-data\.runtime\python3.dll
----------…
-
微博内容精选
-
![1701798529701](https://github.com/hiroi-sora/Umi-OCR/assets/153013326/a058df80-00c6-46b3-8401-ccecbbe2f813)
![1701798533430](https://github.com/hiroi-sora/Umi-OCR/assets/153013326/13856530-13a6-4c7…
-
**1**单行合并的不够彻底,能不能添加一个强制单行的功能,把识别到的所有内容合并成一行,不要换行符。
**2**添加一个多次截图识别的功能。对两个以上不同位置进行截图,然后一次识别。