InsaneLife / dssm

DSSM and Multi-View DSSM
658 stars 230 forks source link

训练loss正常下降,验证loss下降缓慢 #27

Open mokii opened 4 years ago

mokii commented 4 years ago

训练集使用的oppo_round1_train_20180929.txt 验证使用的oppo_round1_vali_20180929.txt 请问有人遇到相似情况吗 image

eshaoliu commented 3 years ago

image 我也是,测试集loss甚至开始涨了

InsaneLife commented 3 years ago

收到,这个周末会进行排查解决

InsaneLife commented 3 years ago

确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了以下实验:

eshaoliu commented 3 years ago

确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了一下实验:

  • 数据:更换数据集为LCQMC口语化描述的语义相似度数据集(实在找不到其他公开的搜索点击数据集,用语义相似数据集实验),模型也从多塔变成了双塔模型,见siamese_network.py。
  • 结果:目前看在此数据集上测试数据集的准确率是提升的,所以猜测是数据集问题,看了oppo里面的似乎有些相同的query和doc,都没有被点击。。。

辛苦啦

SylviaWei-bugfree commented 3 years ago

确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了以下实验:

  • 数据:更换数据集为LCQMC口语化描述的语义相似度数据集(实在找不到其他公开的搜索点击数据集,用语义相似数据集实验),模型也从多塔变成了双塔模型,见siamese_network.py。
  • 结果:目前看在此数据集上测试数据集的准确率是提升的,所以猜测是数据集问题,看了oppo里面的似乎有些相同的query和doc,都没有被点击。。。

你好,我有两个小问题: 1、请问为什么这里bert作为特征提取器时,不考虑多塔模型呢?个人感觉DSSM的精髓之一就是在于用多塔结构放大了样本间的区别。 2、siamese_network.py里有个函数是siamese_loss,好像没有被使用过,请问这个函数里的out1、out2和loss的计算方式是什么样的方便讲一下吗?是否可以据此改造成bert多塔模型?

InsaneLife commented 3 years ago

确实会有这个问题,我这边排查也没找到问题所在,猜测是数据集问题,所以进行了以下实验:

  • 数据:更换数据集为LCQMC口语化描述的语义相似度数据集(实在找不到其他公开的搜索点击数据集,用语义相似数据集实验),模型也从多塔变成了双塔模型,见siamese_network.py。
  • 结果:目前看在此数据集上测试数据集的准确率是提升的,所以猜测是数据集问题,看了oppo里面的似乎有些相同的query和doc,都没有被点击。。。

你好,我有两个小问题: 1、请问为什么这里bert作为特征提取器时,不考虑多塔模型呢?个人感觉DSSM的精髓之一就是在于用多塔结构放大了样本间的区别。 2、siamese_network.py里有个函数是siamese_loss,好像没有被使用过,请问这个函数里的out1、out2和loss的计算方式是什么样的方便讲一下吗?是否可以据此改造成bert多塔模型?

siamese_network.py中的SiamenseBert类就是bert双塔模型,由于LCQMC的数据集是query对,所以这里是双塔模型