hiroi-sora / PaddleOCR-json

OCR离线图片文字识别命令行windows程序,以JSON字符串形式输出结果,方便别的程序调用。提供各种语言API。由 PaddleOCR C++ 编译。
Apache License 2.0
954 stars 126 forks source link

能否识别PDF文件呢? #92

Closed chengyuyu closed 5 months ago

chengyuyu commented 9 months ago

原版的PaddleOCR可以识别PDF文件,能否增加对pdf文件的图片内容的识别呢?

hiroi-sora commented 9 months ago

Umi-OCR 正在开发PDF识别功能。PDF解析部分将由Umi本身 而不是PaddleOCR引擎负责。PaddleOCR-json 暂时没有更新计划。

yang-521 commented 8 months ago

为啥我用Umi-OCR打印识别结果的时候比这里多出了两个'from': 'text', 'end': '',是这边的版本还没更新吗

hiroi-sora commented 8 months ago

是这边的版本还没更新吗

PDF解析部分由Umi-OCR中的组件负责。这边 PaddleOCR-json 是单纯的OCR引擎,没有PDF解析功能。

"from" 和 "end" 也是 Umi 的解析结果,与 Paddle 无关。