Open TinaChen95 opened 10 months ago
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢?
如果只需要减小decoder的参数,可以的啊
学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢?
这是以同一数据为前提进行的,可能叫法不准确,目的就是用同一数据上训练的大参数模型来训练小参数模型
训练学生模型一般多久收敛呀?
至少需要训练500 epochs吧
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢?
如果只需要减小decoder的参数,可以的啊
学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢?
这是以同一数据为前提进行的,可能叫法不准确,目的就是用同一数据上训练的大参数模型来训练小参数模型
训练学生模型一般多久收敛呀?
至少需要训练500 epochs吧 作者你好,知识蒸馏用的什么方法呀?有参考文献或者项目吗?
请问学生模型为啥只重用了教师模型的 enc_q 和 flow,而不重用文本编码器呢? 学生模型的tuning是更适合用同一个数据集的教师模型做transfer,还是更适合用其他学生模型做transfer呢? 训练学生模型一般多久收敛呀?