opendilab / PPOxFamily

PPO x Family DRL Tutorial Course(决策智能入门级公开课:8节课帮你盘清算法理论,理顺代码逻辑,玩转决策AI应用实践 )
https://opendilab.github.io/PPOxFamily/
Apache License 2.0
1.89k stars 169 forks source link

hw_submission(邵镇炜): add hw2_20230117 #19

Closed ParadoxZW closed 1 year ago

ParadoxZW commented 1 year ago

Q3正在训练中,训练完会上传log和视频

walterwhd commented 1 year ago

同学您好,您上传的 PPO x Family Vol.2 作业已确认收到,感谢您对 PPOxFamily 决策智能公开课的参与。

本期课程的作业解答现已发布,请您参考。如果您对本周课程的内容有任何的疑问或者对课程有任何的建议,欢迎您通过本问卷及时告诉我们,您的观点对我们很重要。

谢谢, PPOxFamily 决策智能公开课

ParadoxZW commented 1 year ago
image image

video在更新文件夹中。

ParadoxZW commented 1 year ago

上一次提交发现在gif中,火箭并没有竖直落地。经检查发现是训练不充分导致(训练过程中某一次return超过了提前停止训练的阈值,导致训练还不到一半就中断了)

load上一次训练的ckpt之后继续训练,得到了更好的模型。在deploy中成功竖直落地(gif文件已更新)。

另外发现使用PPOF的deploy接口load eval.pth.tar之前需要

agent.policy.enable_mode.remove('learn')