PearOCR / pearocr_issue

This repository is currently only used for issue tracking for https://pearocr.com
99 stars 8 forks source link

两页并排的文件能基本正确识别但导出txt文件时文字出现乱序 #32

Open tonyyet opened 2 years ago

tonyyet commented 2 years ago

bug重现步骤:

  1. 上传图片,我用的示例图片是这个: https://a.uguu.se/kyWVfmGz.jpg

  2. 使用 PearOCR 完成文字识别

  3. 选择“纯文本方式显示”

完成步骤2的时候,我们看到软件识别出来的文字基本是准确的,其所处位置于原文档基本一致,可以正常阅读。到了步骤3的时候,我们看到右侧显示出来的OCR结果的txt版本,则变成了乱序,基本无法正常阅读。

我找了很多OCR软件,想用OCR把我阅读的一些图书资料分享给视障朋友,他们所使用的读屏软件基本只能读纯文本文件,很希望看到 PearOCR 能够在纯文本输出方面有所改良。

感谢开发者!

PearOCR commented 2 years ago

感谢你对pearocr的关注,目前纯文本输出确实有些问题,这个问题会在下个版本得到改善

lj1998008 commented 2 years ago

把图片分成2个啊