BCE Fine tuning - Githubissues

zhaoyib commented 4 months ago

您好，我在您的项目基础上构建了一个端到端的文本匹配模型，使用了BCEmbedding进行Feature Extraction，余弦相似度进行相似比较召回以及Reranker进行精排，取得了不错的效果。

现在希望进行Fine tuning，想在我们的细分领域下有更好的表现，请问您是否有更新Fine tuning相关内容的后续计划呢？

shenlei1020 commented 4 months ago

您好，感谢对bce项目的关注！ 1、先了解一下背景，您的业务场景是什么语种，什么场景？哪些情况做不好呢？ 2、因为bce模型我们专门做了很多领域覆盖，再做微调可能会损害模型效果。

zhaoyib commented 4 months ago

您好，感谢对bce项目的关注！ 1、先了解一下背景，您的业务场景是什么语种，什么场景？哪些情况做不好呢？ 2、因为bce模型我们专门做了很多领域覆盖，再做微调可能会损害模型效果。

passages是中英双语混杂的简历文本，我将其chunk为300token的长度输入到BCEmbedding中，然后query是工作岗位描述文本，相对比较短，将其先输入到BCEmbedding中，然后通过余弦相似度搜索相似的简历，最后过Reranker得到排序。目前做得不太好的例子还在统计中，暂时没有详细描述

whyiug commented 4 months ago

1 特殊场景-大陆内容审核领域确实需要微调才能保证效果

l793330708 commented 2 months ago

能用CosEnt这种自己构建数据集进行BCEmbedding的微调吗？数据同样比较偏领域性，微调应该适应性更好

您好，感谢对bce项目的关注！ 1、先了解一下背景，您的业务场景是什么语种，什么场景？哪些情况做不好呢？ 2、因为bce模型我们专门做了很多领域覆盖，再做微调可能会损害模型效果。

sevenandseven commented 2 months ago

您好，我在您的项目基础上构建了一个端到端的文本匹配模型，使用了BCEmbedding进行Feature Extraction，余弦相似度进行相似比较召回以及Reranker进行精排，取得了不错的效果。

现在希望进行Fine tuning，想在我们的细分领域下有更好的表现，请问您是否有更新Fine tuning相关内容的后续计划呢？

你好，我发现用bge的工程可以对bce-reranker进行微调，你有测试过吗？但是我微调之后计算得分非常低，已知是e的-2左右的值的，不知道是什么原因？

zhaoyib commented 2 months ago

您好，我在您的项目基础上构建了一个端到端的文本匹配模型，使用了BCEmbedding进行Feature Extraction，余弦相似度进行相似比较召回以及Reranker进行精排，取得了不错的效果。现在希望进行Fine tuning，想在我们的细分领域下有更好的表现，请问您是否有更新Fine tuning相关内容的后续计划呢？

你好，我发现用bge的工程可以对bce-reranker进行微调，你有测试过吗？但是我微调之后计算得分非常低，已知是e的-2左右的值的，不知道是什么原因？

好像bge的一些配置和bce是不一样的，我建议你先检查一下你的配置是否正确，但是我没有用bge的工程跑过，所以我也不确定。然后我已经找到了微调的一个项目，你也可以参考一下：https://github.com/NLPJCL/RAG-Retrieval

sevenandseven commented 2 months ago

您好，我在您的项目基础上构建了一个端到端的文本匹配模型，使用了BCEmbedding进行Feature Extraction，余弦相似度进行相似比较召回以及Reranker进行精排，取得了不错的效果。现在希望进行Fine tuning，想在我们的细分领域下有更好的表现，请问您是否有更新Fine tuning相关内容的后续计划呢？

你好，我发现用bge的工程可以对bce-reranker进行微调，你有测试过吗？但是我微调之后计算得分非常低，已知是e的-2左右的值的，不知道是什么原因？

好像bge的一些配置和bce是不一样的，我建议你先检查一下你的配置是否正确，但是我没有用bge的工程跑过，所以我也不确定。然后我已经找到了微调的一个项目，你也可以参考一下：https://github.com/NLPJCL/RAG-Retrieval

好的，感谢您的回复。

netease-youdao / BCEmbedding

BCE Fine tuning #33