能否识别PDF文件呢？

hiroi-sora / PaddleOCR-json

OCR离线图片文字识别命令行windows程序，以JSON字符串形式输出结果，方便别的程序调用。提供各种语言API。由 PaddleOCR C++ 编译。

Apache License 2.0

981 stars 128 forks source link

Closed chengyuyu closed 5 months ago

chengyuyu commented 10 months ago

原版的PaddleOCR可以识别PDF文件，能否增加对pdf文件的图片内容的识别呢？

hiroi-sora commented 10 months ago

Umi-OCR 正在开发PDF识别功能。PDF解析部分将由Umi本身而不是PaddleOCR引擎负责。PaddleOCR-json 暂时没有更新计划。

yang-521 commented 8 months ago

为啥我用Umi-OCR打印识别结果的时候比这里多出了两个'from': 'text', 'end': ''，是这边的版本还没更新吗

hiroi-sora commented 8 months ago

是这边的版本还没更新吗

PDF解析部分由Umi-OCR中的组件负责。这边 PaddleOCR-json 是单纯的OCR引擎，没有PDF解析功能。

"from" 和 "end" 也是 Umi 的解析结果，与 Paddle 无关。