3xxx / engineercms

工程师知识管理系统:基于golang语言(beego框架),支持分布式文件存储minio集群部署。engineercms为土木工程师基于web的知识管理系统。管理个人、工程项目资料,业主—设计—监理—施工方均从平台获得资料。支持提取码分享文件、onlyoffice实时文档协作,在线利用mindoc创作你的书籍,阅览PDF文件。手机端配套小程序,微信搜索“设计与管理”即可呼出小程序。
https://zsj.itdos.net/
Apache License 2.0
1.37k stars 415 forks source link

海量pdf进行ocr识别,上传解析至elasticsearch,实现全文检索服务 #58

Open 3xxx opened 3 years ago

3xxx commented 3 years ago

psc 用adobe acrobat pro进行批量识别。 再上传engineercms,调用tika解析pdf,存入elasticsearch,用ik插件进行中文分词。