Closed cbxgss closed 6 months ago
你好,我们提供的simple_pipeline只是为了便于验证整体流程是否跑通。里面提供的检索文档和index仅包含1000个文档,因此其实是无法返回需要的结果的。
如果想运行出正常的结果,需要使用完整wikipedia corpus以及对应的index。
你好,我们提供的simple_pipeline只是为了便于验证整体流程是否跑通。里面提供的检索文档和index仅包含1000个文档,因此其实是无法返回需要的结果的。
如果想运行出正常的结果,需要使用完整wikipedia corpus以及对应的index。
好的,十分感谢!
@cbxgss 想请教一下,这个bm25要怎么才能跑起来?我在config里面,将retrieval_method设置成bm25后,出现如下错误:nius.JavaException: JVM exception occurred: indexes/e5_flat_sample.index does not exist or is not a directory. java.lang.IllegalArgumentException
@ZhexuanZhou 你好,目前flashrag的bm25基于pyserini实现。需要完成三个步骤:
如果遇到了其他问题,请随时在此issue中留言
@cbxgss 想请教一下,这个bm25要怎么才能跑起来?我在config里面,将retrieval_method设置成bm25后,出现如下错误:nius.JavaException: JVM exception occurred: indexes/e5_flat_sample.index does not exist or is not a directory. java.lang.IllegalArgumentException
@ZhexuanZhou 需要先build index,参考docs/下的文档
python -m flashrag.retriever.index_builder \
--retrieval_method bm25 \
--corpus_path examples/quick_start/indexes/sample_data.jsonl \
--save_dir examples/quick_start/indexes-my/
我运行examples的检索结果不佳,不知道是什么问题
下面是使用e5的结果
以及使用bm25的结果