wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
814 stars 61 forks source link

使用自有数据集微调m3e-base后,在文本检索任务中效果变差 #105

Open XuHao777 opened 10 months ago

XuHao777 commented 10 months ago

🐛 bug 说明

您好,我构建了一个自有数据集,格式为[label, query1, query2],使用该数据集微调m3e-base模型。同时构建了一个测试数据集,格式为[query, passage1,passage2,passage3,passage4,passage5]。使用原始m3e-base模型和微调后模型分别得到测试数据集的MAE,P@top3,Spearman,发现这三个指标都下降了,这是什么原因呢

附相关指标参数: MAE P@top3 Spearman 备注 m3e-base 1.068 0.733 0.431 normalized m3e-base 1.072 0.7333 0.428 not normalized m3e-base-ft 1.24 0.6766 0.3039 使用query2query数据集微调

Python Version

None

wangyuxinwhy commented 10 months ago

loss 的变化怎么样,是不是过拟合了?