netease-youdao / BCEmbedding

Netease Youdao's open-source embedding and reranker models for RAG products.
Apache License 2.0
1.3k stars 85 forks source link

长度 #36

Open flyBirdBoy opened 4 months ago

flyBirdBoy commented 4 months ago

关于bce reranker模型,文本长度是多少?若是超过长度,他的处理机制是什么?

shenlei1020 commented 4 months ago

感谢对bce模型的关注! bcembedding提供的RerankerModel.rerank方法可以支持32k token长度的passages排序,在readme写了好多地方: https://github.com/netease-youdao/BCEmbedding/blob/c2ede5c26eff925f85ae8ae00ea3d0f66530c0d3/BCEmbedding/models/reranker.py#L101

flyBirdBoy commented 4 months ago

感谢对bce模型的关注! bcembedding提供的RerankerModel.rerank方法可以支持32k token长度的passages排序,在readme写了好多地方:

https://github.com/netease-youdao/BCEmbedding/blob/c2ede5c26eff925f85ae8ae00ea3d0f66530c0d3/BCEmbedding/models/reranker.py#L101

非常感谢你的解答。 1、基于Based on sentence_transformers测试,发现一般900以上文本长度,后续返回的得分都是固定的。这个数值长度是在Based on sentence_transformers中浮动的。 2、基于Based on BCEmbedding测试发现,文本可以支持32k token长度的passages排序。

shenlei1020 commented 4 months ago

是的,用BCEmbedding这个包,readme说明得很清楚,BCEmbedding的包封装了我们的业务逻辑。

hzs0828 commented 4 months ago

请问使用bce reranker的时候需要指定文本的最大长度吗(比如max_length=32K),还是模型会自动匹配

shenlei1020 commented 4 months ago

不用,最长支持这么多,超过会提示