THUDM / LongCite

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
Apache License 2.0
243 stars 16 forks source link

大批量的文件如何操作 #5

Closed wsy9805 closed 1 week ago

wsy9805 commented 1 week ago

简单测了一下,效果确实挺好,但Demo只能测试单文件,请问如果要从几万个甚至更多的文件中搜索并回答用户的提问,该如何操作?

Neo-Zhangjiajie commented 1 week ago

把这些文件转成txt后拼起来当成一个长文档就行,注意最大长度不要超过128k,如果超过的话可能需要先通过rag之类的方法粗筛一下文件。转txt可以参考demo.py里的convert_to_txt函数。

wsy9805 commented 1 week ago

非常感谢