hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.58k stars 2.77k forks source link

有个需求,请大家给个建议。有3000多张纸质文档,想通过这个软件变成电子文档,方便检索文档内容,然后再找到原文档。 #315

Closed huafen2022 closed 10 months ago

huafen2022 commented 10 months ago

1。通过软件扫描进入电脑。 2。利用Umi-OCR识别成电子文档。具体如何识别这么大量的文档,然后再方便检索呢?

hiroi-sora commented 10 months ago
  1. 商用扫描仪(打印店、图文店里有)有批量扫描的功能,可以一次性扫描多张纸质材料。如果你的文档已经封装成册,需要先切开书脊取得散页。可以带着材料去图文店,付费扫描成电子版。

  2. 如果取得的电子版扫描件是单张图片格式,可以直接扔进Umi-OCR。如果是PDF等文档,需要用第三方软件提取为单张图片。

( Umi-OCR的PDF批量识别功能开发中。已取得较大进展,预计于1月底更新;届时可以直接将PDF文件扔进Umi进行识别。)

  1. 关于检索:如果原资料有页码,那么好办,可以预先将图片文件名按照顺序进行编号(如1.jpg, 2.jpg, 3.jpg...)再进行识图。“保存文件类型”可以勾选csv表格文件,方便检索。

如果原资料没有页码,也没有日期、唯一编号等标志信息;可能不容易实现 “通过电子版查找纸质版实物” 。只能够检索出文本后,查看对应的扫描件图片。此时,“保存文件类型”可以勾选md图文混排,以方便同时查看文本和图片。

对3000页文档进行OCR是个耗时较大的工作,建议先拿100页试试水,看看是否符合需求,在进行正式工作。

huafen2022 commented 10 months ago

感谢答疑,等拿到高拍仪好好试试。