junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)
MIT License
3.23k stars 962 forks source link

关于训练过程的疑问 #111

Open dx-feng opened 3 years ago

dx-feng commented 3 years ago

作者你好呀,每次从data_buffer 里取数据后不清空data_buffer,训练到data_buffer 满的时候越到后面新数据越少,随机取data_buffer的数据到mini_batch里的话新数据只占旧数据5%左右,这样做神经网络最新反馈的结果就无法出现到最新的训练集里,但训练结果却依然是在变好,这是什么原因啊,谢谢