Closed LanceLuoyuan closed 9 months ago
- 可以
- 需要改下原数据格式,方法:示例(train_rank.json): {"query": "胡子长得太快怎么办?", "title": "胡子长得快怎么办?", "neg_title": "怎样使胡子不浓密!"} 改为:query, title, label:1; query, neg_title, label:0
- cosent模型是有监督模型,只能做监督训练。
请教下 3. cosent的模型经过有监督样本训练后,还能继续用SimCSE里无监督的方式来训练吗
理论上可以,但没必要。cosent也是对比学习,且是在simcse基础上改进的。
非常棒的开源项目。正好适配目前碰到的一个场景(主要是一些短语匹配的任务),有注意到最新发布的https://huggingface.co/shibing624/text2vec-bge-large-chinese模型在短文本区分度上提升明显,因此想尝试基于这个模型在自己的数据上微调。想实现的目标类似于: 「GMV」能匹配上「销售额」,「pv」能匹配上「访问量」这种需求。因此想请教下作者这块的训练方式,是否可以按下述方式来进行:
真诚的请教下这个做法是否有问题,或者给出一些其他的建议