boyu-ai Hands-on-RL issues

boyu-ai / Hands-on-RL

https://hrl.boyuai.com/

Apache License 2.0

2.38k stars 526 forks source link

issues

Newest

Newest Most commented Recently updated Oldest Least commented Least recently updated

第10章 actor-critic算法的顺序问题

#92 ppap36 opened 2 hours ago
0
请求提供一个requirements.txt

#91 HEHUA2005 opened 2 days ago
0
第8章 DDQN代码无法运行

#90 FengYeXuanLv opened 6 days ago
1
AC cartpole奖励现在破200是正确的吗？

#89 liaojiaxin97 opened 1 week ago
1
DQN 在 gym 新版本下修改后正常运行，但结果不符合预期，1.8.3 测试是 ok 的

#88 mango-zx closed 2 weeks ago
0
请教PPO问题

#87 394262597 opened 1 month ago
0
Chapter 7

#86 A1513906286 opened 1 month ago
1
Chapter 7

#85 A1513906286 opened 1 month ago
0
多臂老虎机ε - 贪心算法解释部分有问题

#84 gymdarius opened 1 month ago
0
trpo

#83 L-lorish opened 1 month ago
0
策略梯度证明笔误？

#82 lanceyliao opened 1 month ago
2
第10章Actor-Critic中actor_loss为何加torch.mean？

#81 lanceyliao closed 2 months ago
0
3.6. 占用度量，为何逆序计算？

#80 lanceyliao closed 2 months ago
1
第九章策略梯度的损失函数

#79 mgt-lya opened 3 months ago
1
https://www.boyuai.com/进不去了

#78 virtualxiaoman opened 4 months ago
1
马尔可夫决策过程，MDP转化为MRP时计算的P疑似有误

#77 zyy777 opened 5 months ago
1
关于web教程布局的建议

#76 dctwan15 opened 5 months ago
0
第十三章 DDPG算法代码实践中的一点疏漏

#75 xiyanzzz opened 6 months ago
0
多臂老虎机的代码里面init_prob为什么是1.0?

#74 mafan1506 opened 6 months ago
0
关于环境初始化的一点提示

#73 Summer907 opened 6 months ago
0
CartPole-v0环境训练reward超过上限值200？

#72 SHTechBoBo closed 5 months ago
1
网页版教程 3.3.2 价值函数推导过程有些模糊

#71 wangdehua01 opened 7 months ago
0
PPO在单摆实验中为什么要对reward=(reward+8)/8的修改呢？

#70 xxoospring closed 2 weeks ago
2
SAC伪代码存在一点小问题

#69 taojunhui opened 9 months ago
0
DQN ReplayBuffer

#68 xxoospring opened 9 months ago
1
用spyder跑PPO代码，kernel自动关闭了

#67 Shawkncok closed 8 months ago
1
将AC改为off-policy后，每次训练500条左右的经验就会报错，显示action_dist = torch.distributions.Categorical(probs)这行代码的运行结果为tensor([[nan, nan]]

#66 Chensyfighting opened 10 months ago
3
公式错误---https://hrl.boyuai.com/chapter/1/时序差分算法#55-q-learning-算法

#65 wslgqq277g closed 10 months ago
1
7.4 DQN 算法反向传播有没有进行求导？？

#64 anranyicheng opened 11 months ago
1
SAC算法——状态价值函数存在问题

#63 Dilettante258 opened 11 months ago
0
运行环境

#62 zheng-lv opened 11 months ago
1
21章MADDPG代码问题，存在维度不匹配

#61 CorneliusDeng opened 11 months ago
2
20章的代码问题

#60 Wayne857 opened 11 months ago
3
第七章DNQ回报超出200

#59 KingOfChuXuan closed 12 months ago
1
已解决

#58 Thovenfish closed 1 year ago
0
失业三年人不认可该观点！：UCB的U_t(a)的分母分母中为拉动每根拉杆的次数加上常数 1 ，这确保每个动作**至少被探索一次**

#57 StevenJokess opened 1 year ago
0
MARL的PPT的第7页和8页参考文献咋相同？

#56 StevenJokess opened 1 year ago
1
第三章马尔科夫决策过程 3.3.1计算回报的函数有问题

#55 Sen1553 opened 1 year ago
0
第八章 `In [7]`代码块，VAnet() 疑似有误

#54 Aegis1863 opened 1 year ago
1
第8章拓展阅读公式推导结果有误，补充分部积分过程

#53 Aegis1863 opened 1 year ago
0
第9章-策略梯度算法中的交叉熵损失体现在代码哪里？

#52 chensisi0730 opened 1 year ago
0
关于开发环境配置

#51 mellody11 opened 1 year ago
4
第七章DQN代运行报错

#50 ShuoZheLi opened 1 year ago
3
制作了 EPUB 格式

#49 wizardforcel opened 1 year ago
0
DQN和AC算法中的q_targets的loss计算为什么最后要乘（1-done）呢？

#48 superbignut opened 1 year ago
2
蒙特卡罗采样动作和状态 temp变量为什么是累加呢

#47 ChengchengDu opened 1 year ago
1
DDPG算法篇笔误

#46 Neuerliu closed 1 year ago
1
第18章cql代码

#45 Jaceyxy opened 1 year ago
0
第十四章SAC 算法代码实践中tanh_normal分布的对数概率密度不太对

#44 SurprisedCat opened 1 year ago
11
第十六章模型预测控制 EnsembleModel类：train方法的问题

#43 Yandong23 opened 1 year ago
1