有个需求，请大家给个建议。有3000多张纸质文档，想通过这个软件变成电子文档，方便检索文档内容，然后再找到原文档。

huafen2022 commented 10 months ago

1。通过软件扫描进入电脑。 2。利用Umi-OCR识别成电子文档。具体如何识别这么大量的文档，然后再方便检索呢？

hiroi-sora commented 10 months ago

商用扫描仪（打印店、图文店里有）有批量扫描的功能，可以一次性扫描多张纸质材料。如果你的文档已经封装成册，需要先切开书脊取得散页。可以带着材料去图文店，付费扫描成电子版。
如果取得的电子版扫描件是单张图片格式，可以直接扔进Umi-OCR。如果是PDF等文档，需要用第三方软件提取为单张图片。

（ Umi-OCR的PDF批量识别功能开发中。已取得较大进展，预计于1月底更新；届时可以直接将PDF文件扔进Umi进行识别。）

关于检索：如果原资料有页码，那么好办，可以预先将图片文件名按照顺序进行编号（如1.jpg, 2.jpg, 3.jpg...）再进行识图。“保存文件类型”可以勾选csv表格文件，方便检索。

如果原资料没有页码，也没有日期、唯一编号等标志信息；可能不容易实现 “通过电子版查找纸质版实物” 。只能够检索出文本后，查看对应的扫描件图片。此时，“保存文件类型”可以勾选md图文混排，以方便同时查看文本和图片。

对3000页文档进行OCR是个耗时较大的工作，建议先拿100页试试水，看看是否符合需求，在进行正式工作。

huafen2022 commented 10 months ago

感谢答疑，等拿到高拍仪好好试试。

hiroi-sora / Umi-OCR