中文句对分类任务不收敛

THUDM / P-tuning-v2

An optimized deep prompt tuning strategy comparable to fine-tuning across scales and tasks

Apache License 2.0

1.97k stars 201 forks source link

中文句对分类任务不收敛 #44

Open yanghb2020 opened 2 years ago

yanghb2020 commented 2 years ago

你好，ptuningv2代码在蚂蚁金服语义相似度任务上没办法收敛，最终表现为全部预测样本数较多的类别，prompt长度为4、8、12、lr为1e-3, 1e-2, 1e-4均如此。如果连同bert的参数一起更新，则可以正常训练，说明数据、代码没有问题，请问有什么其他的可能方向？

Xiao9905 commented 2 years ago

@yanghb2020 你好，

根据我们的经验，

prompt tuning系列方法对于learning rate比较敏感；不好的learning rate通常无法收敛。建议在1e-2到1e-3这个范围内做更细粒度的grid search寻找可以收敛的lr。
prompt tuning系列方法收敛时间一般较长，从我们在一些类似于语义相似度的任务上的测试情况来看，可能需要等到20epoch以后才能逐渐收敛。建议将训练epoch数设置为100，如果到50epoch还没有收敛的迹象，说明这个lr不太合适。

Sauloo-huen commented 1 year ago

你好，请问有进展吗？我也遇到了同样的问题。

yanghb2020 commented 1 year ago

印象里增大模型、增大epoch后会有一定效果，不过afqmc这类任务比普通的分类要难一些，所以确实比较难收敛

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年1月12日(星期四) 凌晨0:18 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [THUDM/P-tuning-v2] 中文句对分类任务不收敛 (Issue #44)

你好，请问有进展吗？我也遇到了同样的问题。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>