wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
826 stars 64 forks source link

Loss固定不变或者上升 #127

Open Jeru2023 opened 5 months ago

Jeru2023 commented 5 months ago

🐛 bug 说明

自己准备了8000数据集,格式为TripletRecord。尝试了多种模型,尝试了各种学习率,都是Loss(both train loss and validation loss)没有变化或者持续上升, 甚至尝试了教程中的模型与公共数据集,也是这个情况,请问可能是什么原因?

Python Version

None

Jeru2023 commented 5 months ago

不指定学习率的情况下,代码自行决定学习率,train loss下降,validation loss依然持续上升: Epoch 1/10 - loss: 3.1599: 100% 459/459 [02:43<00:00, 3.19it/s] Epoch 1 Validation loss: 3.0612 Epoch 2/10 - loss: 2.5541: 100% 459/459 [02:45<00:00, 3.19it/s] Epoch 2 Validation loss: 3.3616 Epoch 3/10 - loss: 1.8761: 100% 459/459 [02:45<00:00, 3.13it/s] Epoch 3 Validation loss: 3.9093 Epoch 4/10 - loss: 1.3455: 100% 459/459 [02:47<00:00, 3.13it/s] Epoch 4 Validation loss: 4.0230 Epoch 5/10 - loss: 1.0268: 100% 459/459 [02:47<00:00, 3.12it/s] Epoch 5 Validation loss: 4.0162

顺边我再贴下我的数据格式, sentence1为query, 字数很少, sentence2为召回内容: {'sentence1': '华为出货量', 'sentence2': '欧菲光与华为合作情况。欧菲光目前与华为的合作稳定。预计华为Mate60今年的总出货量约为1000万部,明年预计为500~600万部。至于P70,欧菲光将全力争取市场份额,具体份额尚不便透露,但整体预计P70的出货量将少于Mate60。明年核心产品价格调整预期。明年核心产品的价格调整将根据市场状况进行。总体趋势看涨,预计明年一季度价格将比当前水平上涨1%~2%。明年整体手机市场出货量走势。明年整体手机市场出货量不会有太大变化,但某些客户将会有所增长。例如,华为明年的出货量预计将大幅增长至7000万部左右,而小米的出货量预计与今年持平。欧菲光与小米的合作情况。欧菲光一直与小米有合作,几乎参与了小米所有大型项目。在小米的供应商中,欧菲光与舜宇和AAC三家占据较大份额,其中欧菲光的份额约为30%~40%,舜宇略比欧菲光少一些,而AAC约占20%。华为在供应链中的主导地位和对利润的影响。华为在明年的供应链增量中占据主导地位,可能对供应链的利润产生较大压力。华为在面对美国制裁后,调整了策略,更注重供应的稳定性和技术实力。在高端市场,华为愿意维持利润并给予供应链回报,但在中低端市场,价格战是不可避免的。华为的策略和行为对整个商业供应链和其他设计品牌都会产生影响,主要体现在价格和利润倾向上。舜宇光学科技与华为的合作情况。舜宇光学科技一直是华为供应链的一部分,但近年来转向了苹果欧菲光。目前有消息称舜宇已经参与到华为P70的生产中,但准确性尚不清楚。欧菲光明年光学产品价格趋势和客户出货量占比与毛利率情况。明年光学产品的价格预计会回归到一个理性且能够保证盈利的水平,涨价幅度可能在3%~5%之间。华为约占35%的出货量,小米约占30%,荣耀约占10%~15%,大疆约占10%,其他客户占比较小。华为和小米的高端产品毛利率较好,而低端产品的毛利率较低。手机镜头发展方向和消费电子市场回升趋势。手机镜头发展方向可能是推出6P或7P镜头,并朝着更大尺寸发展。苹果和三星等头部企业在手机镜头领域主要追求更好的成像质量。消费电子市场的回升主要取决于经济环境和居民收入的增长。', 'label': 1}

insomnia-y1999 commented 4 months ago

“train loss下降,validation loss依然持续上升” 就是标准的过拟合现象吧 你试试把学习率手动再调低一点?例如finetuner.run(lr=3e-6)