daodao97 / chatdoc

Chat with your doc by openai
456 stars 105 forks source link

pdf文件有乱码以及会错误的切割 #6

Open magicleo opened 1 year ago

magicleo commented 1 year ago

CJKPDFReader读取的效果:

image

原始文档中截图:

image

对于我的文档,无论是用代码中的CJKPDFReader还是PyPDF2发现都有比较多的乱码和错误的换行符,文档切割的非常差,导致无法正常回答问题,请问有什么办法解决吗?

daodao97 commented 1 year ago

可以在获取到pdf文本后再次进行清洗, 比如去除所有空白字符, 然后再进行索引

magicleo commented 1 year ago

@daodao97 感谢回复,空白字符还比较好处理,但是很多乱码字符我不知道怎么处理。

image

①②等字符识别出来会变成其它的中文字:

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

daodao97 commented 1 year ago

这个我也没什么好的思路了

hujb2000 commented 1 year ago

@daodao97 感谢回复,空白字符还比较好处理,但是很多乱码字符我不知道怎么处理。

image

①②等字符识别出来会变成其它的中文字:

\n于世高(哑醚唑)。10%水分散粒剂,是内吸性杀菌剂,有\n14天的持效期,防治早疫病的效果极好,每亩用35~50克。\n盂好力克(戊唑醇)

会不会缺少相应的字体库引起乱码的?