heshenxian1 / OpenMindClass

开智越读会友。开智正典精读,越读悦读阅读。
GNU General Public License v3.0
185 stars 56 forks source link

扫描 PDF 全文文本化检索 #47

Closed ghost closed 4 years ago

ghost commented 4 years ago

之前以为用纸书从头看到尾是正确的看书方法,后来知道阳老师使用了词频的方法快速阅读,具体不清楚,为了提高主题阅读的效率和质量,采用计算机辅助阅读,当然神作为了阅读的系统和乐趣值得通读:

PDF 文本化

文本化mac上测试了下,试了4款ocr,文本化用 adobe acrobat pro dc操作方便,识别准确,输出体积小,虽然有个别字识别错误,但综合下来还是最好的。 截图如下

索引使用foxtrot软件,使用方法可以去 艺术史图书馆 公众号检索 foxtrot ,有多篇说明,https://mp.weixin.qq.com/s/gPuh0TPTDB_NHWwMHVUunA。 如果遇到spotlight问题可以网上搜下或者留言。 检索截图如下

词频统计可以用免费的AntConc,WordSmith Tool可能更方便但是太贵了下载不了。 还不知道怎么,所以没做。

因为扫描的文本化比较耗时,现成的epub/mobi之类可以用calibre直接转成文本化的pdf,文本化好的PDF分享加百度网盘群 https://pan.baidu.com/mbox/homepage?short=mmZ5MIk 加入后可以分享文件,已经分享的文件在群组的右上角的文件库里。

ghost commented 4 years ago

ocr速度和检索方法,词频技巧留言补充