pdf文件有乱码以及会错误的切割

daodao97 / chatdoc

Chat with your doc by openai

456 stars 105 forks source link

Open magicleo opened 1 year ago

magicleo commented 1 year ago

CJKPDFReader读取的效果：

原始文档中截图：

对于我的文档，无论是用代码中的CJKPDFReader还是PyPDF2发现都有比较多的乱码和错误的换行符，文档切割的非常差，导致无法正常回答问题，请问有什么办法解决吗？

daodao97 commented 1 year ago

可以在获取到pdf文本后再次进行清洗, 比如去除所有空白字符, 然后再进行索引

magicleo commented 1 year ago

@daodao97 感谢回复，空白字符还比较好处理，但是很多乱码字符我不知道怎么处理。

①②等字符识别出来会变成其它的中文字：

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

daodao97 commented 1 year ago

这个我也没什么好的思路了

hujb2000 commented 1 year ago

@daodao97 感谢回复，空白字符还比较好处理，但是很多乱码字符我不知道怎么处理。

①②等字符识别出来会变成其它的中文字：

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

会不会缺少相应的字体库引起乱码的？