Open muranran opened 2 years ago
报错如上,但是可以正常运行 稳定后数据有问题 reward一直为0
把你运行的配置附上
配置如下
配置 在训练30min后,结果如下 训练数据train_avg_reward一直在0左右徘徊,没有报错
运行1h后报错
最终