hw_submission(邵镇炜): add hw2_20230117

opendilab / PPOxFamily

PPO x Family DRL Tutorial Course（决策智能入门级公开课：8节课帮你盘清算法理论，理顺代码逻辑，玩转决策AI应用实践）

https://opendilab.github.io/PPOxFamily/

Apache License 2.0

1.89k stars 169 forks source link

Closed ParadoxZW closed 1 year ago

ParadoxZW commented 1 year ago

Q3正在训练中，训练完会上传log和视频

walterwhd commented 1 year ago

同学您好，您上传的 PPO x Family Vol.2 作业已确认收到，感谢您对 PPOxFamily 决策智能公开课的参与。

本期课程的作业解答现已发布，请您参考。如果您对本周课程的内容有任何的疑问或者对课程有任何的建议，欢迎您通过本问卷及时告诉我们，您的观点对我们很重要。

谢谢， PPOxFamily 决策智能公开课

ParadoxZW commented 1 year ago

video在更新文件夹中。

ParadoxZW commented 1 year ago

上一次提交发现在gif中，火箭并没有竖直落地。经检查发现是训练不充分导致（训练过程中某一次return超过了提前停止训练的阈值，导致训练还不到一半就中断了）

load上一次训练的ckpt之后继续训练，得到了更好的模型。在deploy中成功竖直落地（gif文件已更新）。

另外发现使用PPOF的deploy接口load eval.pth.tar之前需要

agent.policy.enable_mode.remove('learn')