netease-youdao / BCEmbedding

Netease Youdao's open-source embedding and reranker models for RAG products.
Apache License 2.0
1.3k stars 85 forks source link

BCE Fine tuning #33

Open zhaoyib opened 4 months ago

zhaoyib commented 4 months ago

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。

现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

shenlei1020 commented 4 months ago

您好,感谢对bce项目的关注! 1、先了解一下背景,您的业务场景是什么语种,什么场景?哪些情况做不好呢? 2、因为bce模型我们专门做了很多领域覆盖,再做微调可能会损害模型效果。

zhaoyib commented 4 months ago

您好,感谢对bce项目的关注! 1、先了解一下背景,您的业务场景是什么语种,什么场景?哪些情况做不好呢? 2、因为bce模型我们专门做了很多领域覆盖,再做微调可能会损害模型效果。

passages是中英双语混杂的简历文本,我将其chunk为300token的长度输入到BCEmbedding中,然后query是工作岗位描述文本,相对比较短,将其先输入到BCEmbedding中,然后通过余弦相似度搜索相似的简历,最后过Reranker得到排序。目前做得不太好的例子还在统计中,暂时没有详细描述

whyiug commented 4 months ago
l793330708 commented 2 months ago

能用CosEnt这种自己构建数据集进行BCEmbedding的微调吗?数据同样比较偏领域性,微调应该适应性更好

您好,感谢对bce项目的关注! 1、先了解一下背景,您的业务场景是什么语种,什么场景?哪些情况做不好呢? 2、因为bce模型我们专门做了很多领域覆盖,再做微调可能会损害模型效果。

sevenandseven commented 2 months ago

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。

现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

你好,我发现用bge的工程可以对bce-reranker进行微调,你有测试过吗?但是我微调之后计算得分非常低,已知是e的-2左右的值的,不知道是什么原因?

zhaoyib commented 2 months ago

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。 现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

你好,我发现用bge的工程可以对bce-reranker进行微调,你有测试过吗?但是我微调之后计算得分非常低,已知是e的-2左右的值的,不知道是什么原因?

好像bge的一些配置和bce是不一样的,我建议你先检查一下你的配置是否正确,但是我没有用bge的工程跑过,所以我也不确定。然后我已经找到了微调的一个项目,你也可以参考一下:https://github.com/NLPJCL/RAG-Retrieval

sevenandseven commented 2 months ago

您好,我在您的项目基础上构建了一个端到端的文本匹配模型,使用了BCEmbedding进行Feature Extraction,余弦相似度进行相似比较召回以及Reranker进行精排,取得了不错的效果。 现在希望进行Fine tuning,想在我们的细分领域下有更好的表现,请问您是否有更新Fine tuning相关内容的后续计划呢?

你好,我发现用bge的工程可以对bce-reranker进行微调,你有测试过吗?但是我微调之后计算得分非常低,已知是e的-2左右的值的,不知道是什么原因?

好像bge的一些配置和bce是不一样的,我建议你先检查一下你的配置是否正确,但是我没有用bge的工程跑过,所以我也不确定。然后我已经找到了微调的一个项目,你也可以参考一下:https://github.com/NLPJCL/RAG-Retrieval

好的,感谢您的回复。