daodao97 / chatdoc

Chat with your doc by openai
457 stars 103 forks source link

你好,请问这个项目怎么解析pdf的呀 #50

Open happywinder opened 1 month ago

happywinder commented 1 month ago

请问这个项目怎么解析pdf的,我说的比较简单,大体上是使用pypdf识别字符和表格然后用rag做的吗

HuangruiChu commented 2 weeks ago

https://github.com/daodao97/chatdoc/blob/master/server/doc_util.py#L79 你看这个 基本是靠PyPDF2 这个包的 PdfReader