XinJingHao / Actor-Sharer-Learner

Actor-Sharer-Learner training framework for off-policy DRL algorithms
MIT License
19 stars 0 forks source link

ataris tennis 我保持了原论文的参数跑,reward 50M之前没有超过0 为什么 #1

Closed Redhair957 closed 4 days ago

XinJingHao commented 5 days ago

换一个随机种子试试呢?DRL训练会有不稳定的现象。

其他的Atari游戏跑出来结果正常吗?

Redhair957 commented 4 days ago

我试了您的DRL-pytorch Duel DQN 论文 tennis里说是5.1 但是我的Score 一直显示 -1 -23 不知道为什么,您能给我一个做Tennis时候的参数吗。谢谢

Redhair957 commented 4 days ago

DRL-pytorch 2.2小节

XinJingHao commented 4 days ago

请使用ASL+DDQN训练Tennis,超参数见论文https://arxiv.org/pdf/2305.04180 中的Table 3.

Redhair957 commented 4 days ago

谢谢您的回复,我不太熟悉强化学习。 是这样的我需要保存 tennis 训练的权重,以此来使用render 渲染环境验证,但是我并没有在ASL+DDQN中看到保存代码,您给我一些意见吗,非常感谢您的帮助。

XinJingHao commented 4 days ago

可以在Learner里添加以下代码以保存模型: torch.save(self.q_net.state_dict(), "model.pth")