netease-youdao / BCEmbedding

Netease Youdao's open-source embedding and reranker models for RAG products.
Apache License 2.0
1.37k stars 90 forks source link

如何训练呢? #82

Closed lycfight closed 1 month ago

lycfight commented 1 month ago

在业务数据上表现不好,如何优化呢?不建议微调,那重新训练可以吗?如何训练?

shenlei1020 commented 1 month ago

请问你们是什么场景?如何使用的bce?chunk切了多大?

lycfight commented 1 month ago

也是偏通用的个人知识库,有博客、技术文档、日志等。就是直接使用Qanything默认的设置,chunk切了400。参考 技术报告 中提到的,不建议业务向的微调。那么重新弄通用领域的数据再混些业务领域的数据是否能获得更好的效果呢?是类似SimCSE的训练方式吗?

shenlei1020 commented 1 month ago

确认chunk 400是token长度,不是str的字符长度哈