PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning
https://parl.readthedocs.io/
Apache License 2.0
3.22k stars 817 forks source link

保存模型后加载出来的模型输出比训练时差很多 #1104

Open vigorPan opened 1 year ago

vigorPan commented 1 year ago

我用paddlepaddle 1.8.5训练模型得到的奖励稳定在7.5左右,此时结束训练用agent.save()保存模型。之后再另一个test.py里使用agent.restore()将模型加载出来,跑一个env.step()得到的奖励只有6.6。这是怎么回事呢?