Text2SQL-BASELINE 已训练了30 epoches, loss 都达到了 0.1([train] epoch 30/30 loss is 0.104724, cost 5030.63s.),后面在text2sql_dusql.jsonnet 修改 init_model_params 和 init_model_optim 为30轮次的参数再重新训练,也就相当于第31次训练,但 loss 反而变的很大([train] epoch 1, batch 100. loss is 1035.5252058463. cost 426.66s),不连续的训练会使结果变差吗?这是为什么?
Text2SQL-BASELINE 已训练了30 epoches, loss 都达到了 0.1([train] epoch 30/30 loss is 0.104724, cost 5030.63s.),后面在text2sql_dusql.jsonnet 修改 init_model_params 和 init_model_optim 为30轮次的参数再重新训练,也就相当于第31次训练,但 loss 反而变的很大([train] epoch 1, batch 100. loss is 1035.5252058463. cost 426.66s),不连续的训练会使结果变差吗?这是为什么?