Open dancerwhy opened 2 years ago
看了一下代码,Stage 2似乎没有用到Stage 1训练好的model,是需要自己修改Stage 2的代码,导入Stage 1训好的model吗?如果是的话,Stage 2的训练样本和Stage 1的训练样本需要有什么区别呢? 看了一下链接里的两篇文章,好像也没有分两个Stage来训练呀(可能是我没看懂) NLP小白挥泪求助大佬
是需要自己修改Stage 2的代码,导入Stage 1训好的model吗?
是的
看了一下链接里的两篇文章,好像也没有分两个Stage来训练呀
链接的文章显然说要分两阶段训练(预训练+蒸馏)
Stage 2的训练样本和Stage 1的训练样本需要有什么区别呢?
没区别。只是Stage 1比Stage 2快,所以先Stage 1训练更多步数。
看了一下代码,Stage 2似乎没有用到Stage 1训练好的model,是需要自己修改Stage 2的代码,导入Stage 1训好的model吗?如果是的话,Stage 2的训练样本和Stage 1的训练样本需要有什么区别呢? 看了一下链接里的两篇文章,好像也没有分两个Stage来训练呀(可能是我没看懂) NLP小白挥泪求助大佬