THUDM / P-tuning-v2

An optimized deep prompt tuning strategy comparable to fine-tuning across scales and tasks
Apache License 2.0
1.97k stars 201 forks source link

中文句对分类任务不收敛 #44

Open yanghb2020 opened 2 years ago

yanghb2020 commented 2 years ago

你好,ptuningv2代码在蚂蚁金服语义相似度任务上没办法收敛,最终表现为全部预测样本数较多的类别,prompt长度为4、8、12、lr为1e-3, 1e-2, 1e-4均如此。 如果连同bert的参数一起更新,则可以正常训练,说明数据、代码没有问题,请问有什么其他的可能方向?

Xiao9905 commented 2 years ago

@yanghb2020 你好,

根据我们的经验,

  1. prompt tuning系列方法对于learning rate比较敏感;不好的learning rate通常无法收敛。建议在1e-2到1e-3这个范围内做更细粒度的grid search寻找可以收敛的lr。
  2. prompt tuning系列方法收敛时间一般较长,从我们在一些类似于语义相似度的任务上的测试情况来看,可能需要等到20epoch以后才能逐渐收敛。建议将训练epoch数设置为100,如果到50epoch还没有收敛的迹象,说明这个lr不太合适。
Sauloo-huen commented 1 year ago

你好,请问有进展吗?我也遇到了同样的问题。

yanghb2020 commented 1 year ago

印象里增大模型、增大epoch后会有一定效果,不过afqmc这类任务比普通的分类要难一些,所以确实比较难收敛

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年1月12日(星期四) 凌晨0:18 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [THUDM/P-tuning-v2] 中文句对分类任务不收敛 (Issue #44)

你好,请问有进展吗?我也遇到了同样的问题。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>