问知识库是pdf的内容，理解能力差

netease-youdao / QAnything

Question and Answer based on Anything.

https://qanything.ai

GNU Affero General Public License v3.0

11.39k stars 1.1k forks source link

Open sushushimoonif opened 1 month ago

sushushimoonif commented 1 month ago

docx理解能力都很正常，但问知识库是pdf的内容，rot给出的回答相关度低，理解能力差。有人遇到过这个问题吗？如何解决呀？ model: rerank、 embedding model都是默认设定的 llm选了qwen 7b的

Heisenbergxh commented 1 month ago

excel也是理解能力差，比如想要某一行某一列的内容，提取不出来

chjmail commented 1 month ago

同问，我发现pdf中的数据列表，识别率极低，同一个pdf文档使用了ragflow知识库，就可以识别出来，不知官方有没有发现这个问题，提升一下

MI-Class commented 6 days ago

我觉得是大模型的问题，同样问题问7B回答的乱，问14B就可以正确回答