ocrmypdf / OCRmyPDF

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched
http://ocrmypdf.readthedocs.io/
Mozilla Public License 2.0
14.15k stars 1.02k forks source link

当使用ocrmypdf输入 PDF 为中文时,结果 复制PDF 中有额外的空格 #1391

Open deict opened 2 months ago

deict commented 2 months ago

Simple sanity checks

Third party app name and version

No response

Describe the bug

使用ocrmysql识别后的截图image 从识别后的pdf复制的内容‘短期 负 荷 预 测; 影 响负荷 的 因 素 很 多 ,存 在 着 不 确 定 性 ,首 先 需 要 进 行 一 定 的 数 据 清 洗 , 过 滁 掉 一 些 数 据 , 然 后 进 行 特 征 选 择 , 选 取 上 一 天 的 负 荷’ 这些中间会有一些空格

运行截图image

Steps to reproduce

1. Import attached file into Paperless-ngx
2. Trigger OCR
3. Check log file
4. ....\ocrmypdf -l chi_sim C:/Users/15179/Pictures/pp.pdf C:/Users/15179/Pictures/pp2.pdf

Files

pp.pdf

OCRmyPDF version

16.4.3

Relevant log output

No response

wywzxxz commented 1 month ago

重复 https://github.com/ocrmypdf/OCRmyPDF/issues/715 https://www.cnblogs.com/issacnew/p/17468697.html