netease-youdao / BCEmbedding

Netease Youdao's open-source embedding and reranker models for RAG products.
Apache License 2.0
1.3k stars 85 forks source link

Xinference对比手动部署 #57

Closed Lorrrrraine closed 2 months ago

Lorrrrraine commented 2 months ago

请教一下,为什么bce-reranker-base_v1在Xinference下部署显存消耗为2G左右,而直接手动部署的显存消耗为6G左右呢,并且Xinference下reranker的推理耗时显著高于手动部署

shenlei1020 commented 2 months ago

手动部署的推理框架是什么?

Lorrrrraine commented 2 months ago

手动部署就是直接git下来的,跑了benchmark测试

Lorrrrraine commented 2 months ago

并且使用Xinference部署后,调用reranker时会出现如下错误 image

shenlei1020 commented 2 months ago

1、如果用transformers推理,显存占用会高一些。这也和推理的batch和query、passage长度有关系。 2、xinference有官方的教程,建议看一下。 3、供参考:个人经验reranker部署batch16,并发~10的情况下,显存占用4~5G的样子。