netease-youdao / BCEmbedding

Netease Youdao's open-source embedding and reranker models for RAG products.
Apache License 2.0
1.3k stars 85 forks source link

FYI:最近测了 bce chunksize & bge 对比 #67

Open tpoisonooo opened 1 month ago

tpoisonooo commented 1 month ago

数据是集中深度学习领域的,不一定对,见 https://zhuanlan.zhihu.com/p/704311157

tpoisonooo commented 1 month ago

三、BCE 还是 BGE ? 前面验证右值时,已给出豆哥在 BCE 和 BGE[5]上的精度结果(75.39 vs 72.23)。本文并未观察到二者在结构上有显著差异,考虑到 BGE 模型更大,因此推测 BCE 的训练数据和豆哥更匹配。

由于 BGE 提供了完整的复现过程、论文和源码,对于注重数据隐私的业务,BGE 更适合微调和难例挖掘。

shenlei1020 commented 1 month ago

Thanks for your experiences!