关于训练过程的疑问

junxiaosong / AlphaZero_Gomoku

An implementation of the AlphaZero algorithm for Gomoku (also called Gobang or Five in a Row)

MIT License

3.34k stars 970 forks source link

关于训练过程的疑问 #111

Open dx-feng opened 4 years ago

dx-feng commented 4 years ago

作者你好呀,每次从data_buffer 里取数据后不清空data_buffer，训练到data_buffer 满的时候越到后面新数据越少，随机取data_buffer的数据到mini_batch里的话新数据只占旧数据5%左右，这样做神经网络最新反馈的结果就无法出现到最新的训练集里，但训练结果却依然是在变好，这是什么原因啊，谢谢