Open nothingeasy opened 6 years ago
就想知道 best_policy_8_8_5.model best_policy_8_8_5.model2 这两个的区别
这两个model都是训练了3000~4000多局自我对局得到的,model2是后期代码稳定了一次性跑出来的,另一个没记错的话是在一个learning rate下跑了1000局,然后改了下learning rate,以1000局得到的model初始化又跑了3000局
就想知道 best_policy_8_8_5.model best_policy_8_8_5.model2 这两个的区别