Open MyGithub1234567890 opened 7 months ago
我理解在IEKT的训练过程中引入了Policy Gradient的强化学习算法(论文section4.3 Model Learning), 所以loss会出现震荡. 不过可以看到valid auc一直有在上升, 模型一直有在学, 直到达到我们设定的early stop.