ZhuiyiTechnology / roformer-sim

SimBERT升级版(SimBERTv2)!
Apache License 2.0
439 stars 73 forks source link

Stage 1和Stage 2是什么关系?是否为:Stage 1训练得到的model作为Stage 2的预训练model输入? #15

Open dancerwhy opened 2 years ago

dancerwhy commented 2 years ago

看了一下代码,Stage 2似乎没有用到Stage 1训练好的model,是需要自己修改Stage 2的代码,导入Stage 1训好的model吗?如果是的话,Stage 2的训练样本和Stage 1的训练样本需要有什么区别呢? 看了一下链接里的两篇文章,好像也没有分两个Stage来训练呀(可能是我没看懂) NLP小白挥泪求助大佬

bojone commented 2 years ago

是需要自己修改Stage 2的代码,导入Stage 1训好的model吗?

是的

看了一下链接里的两篇文章,好像也没有分两个Stage来训练呀

链接的文章显然说要分两阶段训练(预训练+蒸馏)

Stage 2的训练样本和Stage 1的训练样本需要有什么区别呢?

没区别。只是Stage 1比Stage 2快,所以先Stage 1训练更多步数。