Closed z384141819 closed 5 years ago
@z384141819 你好,我一般是先训练4倍的,然后训练3倍和2倍模型。
请问您训练完4倍模型之后,然后先训练3倍模型,还是先训练2倍模型?训练3倍和2倍模型的时候是以4倍模型为基础的么?您前面也说过要用2倍模型参数初始化网络来训练x3(或x4)模型,我直接先训练4倍的,发现效果更差。
@z384141819 我一般是先训练4倍的,然后2倍和3倍均是用4倍的模型初始化的,结果的好坏当然也与调参技巧和模型选择有一定的关系。你可以尝试多训练几轮。
您好,通过使用x2模型参数初始化网络来训练x3(或x4)模型,应如何设置学习率和损失函数或者能否告知一些训练的细节或技巧?
我使用x2模型参数初始化网络来训练x3(或x4)模型时,首先,我在训练大小数据(traing size data)中使用0.0001和L1,然后在微调大小数据(fine-tuning size data)中使用0.00001和L2。我无法达到你的效果,特别是在x4中实验结果很差。