netease-youdao / BCEmbedding

Netease Youdao's open-source embedding and reranker models for RAG products.
Apache License 2.0
1.35k stars 90 forks source link

在纯中文应用场景下的评测指标比较 #14

Open zhanghx0905 opened 7 months ago

zhanghx0905 commented 7 months ago

你好,我看到你们的工作取得了非常优秀的评测成绩。

我想知道在纯中文RAG评测集中,你们的embedding和reranker组合与其他组合相比怎么样,比如bge-zh和bge-reranker。 在我们目前的落地需求中,文档以中文为主,双语的需求应该会非常少。

shenlei1020 commented 7 months ago

https://github.com/netease-youdao/BCEmbedding/blob/master/Docs/EvaluationSummary/rag_eval_multiple_domains_summary_zh.md 新增了单语种RAG评测。

zhanghx0905 commented 7 months ago

谢谢更新,我还有一个问题。

https://huggingface.co/maidalun1020/bce-reranker-base_v1/blob/main/tokenizer_config.json

model_max_length 为什么设置的这么大,不设置成 512 吗?

shenlei1020 commented 7 months ago

建议按照这么写,在sentence transformers调用cross encoder时候写指定512。

zhanghx0905 commented 7 months ago

建议按照这么写,在sentence transformers调用cross encoder时候写指定512。

谢谢,这个有什么说法吗

Kgoeson commented 6 months ago

建议按照这么写,在sentence transformers调用cross encoder时候写指定512。 model_max_length最大可以多少呢?目前文档的需求要求文本块大一点的