netease-youdao / QAnything

Question and Answer based on Anything.
https://qanything.ai
GNU Affero General Public License v3.0
11.39k stars 1.1k forks source link

问知识库是pdf的内容,理解能力差 #463

Open sushushimoonif opened 1 month ago

sushushimoonif commented 1 month ago

docx理解能力都很正常,但问知识库是pdf的内容,rot给出的回答相关度低,理解能力差。有人遇到过这个问题吗?如何解决呀? model: rerank、 embedding model都是默认设定的 llm选了qwen 7b的

Heisenbergxh commented 1 month ago

excel也是理解能力差,比如想要某一行某一列的内容,提取不出来

chjmail commented 1 month ago

同问,我发现pdf中的数据列表,识别率极低,同一个pdf文档 使用了ragflow知识库,就可以识别出来,不知官方有没有发现这个问题,提升一下

MI-Class commented 6 days ago

我觉得是大模型的问题,同样问题问7B回答的乱,问14B就可以正确回答