Menghuan1918 / pdfdeal

A python wrapper for the Doc2X API and comes with native PDF processing (to improve PDF recall in RAG). | Doc2X API的python封装,同时附带本地的PDF处理(提升PDF在RAG中的召回率)。
https://menghuan1918.github.io/pdfdeal-docs/
MIT License
162 stars 8 forks source link

doc格式图文混排识别可以吗 #9

Open tqangxl opened 1 month ago

tqangxl commented 1 month ago

Test 图文混排,doc(97-2003) 新建 Microsoft Word 文档.zip 多级(每个文件夹内还含有多个子文件夹)文件夹批量输入doc格式文件