issues
search
boyu-ai
/
Hands-on-RL
https://hrl.boyuai.com/
Apache License 2.0
2.38k
stars
526
forks
source link
issues
Newest
Newest
Most commented
Recently updated
Oldest
Least commented
Least recently updated
第10章 actor-critic算法的顺序问题
#92
ppap36
opened
2 hours ago
0
请求提供一个requirements.txt
#91
HEHUA2005
opened
2 days ago
0
第8章 DDQN代码无法运行
#90
FengYeXuanLv
opened
6 days ago
1
AC cartpole奖励现在破200是正确的吗?
#89
liaojiaxin97
opened
1 week ago
1
DQN 在 gym 新版本下修改后正常运行,但结果不符合预期,1.8.3 测试是 ok 的
#88
mango-zx
closed
2 weeks ago
0
请教PPO问题
#87
394262597
opened
1 month ago
0
Chapter 7
#86
A1513906286
opened
1 month ago
1
Chapter 7
#85
A1513906286
opened
1 month ago
0
多臂老虎机ε - 贪心算法 解释部分有问题
#84
gymdarius
opened
1 month ago
0
trpo
#83
L-lorish
opened
1 month ago
0
策略梯度证明笔误?
#82
lanceyliao
opened
1 month ago
2
第10章Actor-Critic中actor_loss为何加torch.mean?
#81
lanceyliao
closed
2 months ago
0
3.6. 占用度量,为何逆序计算?
#80
lanceyliao
closed
2 months ago
1
第九章策略梯度的损失函数
#79
mgt-lya
opened
3 months ago
1
https://www.boyuai.com/进不去了
#78
virtualxiaoman
opened
4 months ago
1
马尔可夫决策过程,MDP转化为MRP时计算的P疑似有误
#77
zyy777
opened
5 months ago
1
关于web教程布局的建议
#76
dctwan15
opened
5 months ago
0
第十三章 DDPG算法 代码实践中的一点疏漏
#75
xiyanzzz
opened
6 months ago
0
多臂老虎机的代码里面init_prob为什么是1.0?
#74
mafan1506
opened
6 months ago
0
关于环境初始化的一点提示
#73
Summer907
opened
6 months ago
0
CartPole-v0环境训练reward超过上限值200?
#72
SHTechBoBo
closed
5 months ago
1
网页版教程 3.3.2 价值函数 推导过程有些模糊
#71
wangdehua01
opened
7 months ago
0
PPO在单摆实验中为什么要对reward=(reward+8)/8的修改呢?
#70
xxoospring
closed
2 weeks ago
2
SAC伪代码存在一点小问题
#69
taojunhui
opened
9 months ago
0
DQN ReplayBuffer
#68
xxoospring
opened
9 months ago
1
用spyder跑PPO代码,kernel自动关闭了
#67
Shawkncok
closed
8 months ago
1
将AC改为off-policy后,每次训练500条左右的经验就会报错,显示action_dist = torch.distributions.Categorical(probs)这行代码的运行结果为tensor([[nan, nan]]
#66
Chensyfighting
opened
10 months ago
3
公式错误---https://hrl.boyuai.com/chapter/1/时序差分算法#55-q-learning-算法
#65
wslgqq277g
closed
10 months ago
1
7.4 DQN 算法反向传播有没有进行求导??
#64
anranyicheng
opened
11 months ago
1
SAC算法——状态价值函数存在问题
#63
Dilettante258
opened
11 months ago
0
运行环境
#62
zheng-lv
opened
11 months ago
1
21章MADDPG代码问题,存在维度不匹配
#61
CorneliusDeng
opened
11 months ago
2
20章的代码问题
#60
Wayne857
opened
11 months ago
3
第七章DNQ回报超出200
#59
KingOfChuXuan
closed
12 months ago
1
已解决
#58
Thovenfish
closed
1 year ago
0
失业三年人不认可该观点!:UCB的U_t(a)的分母分母中为拉动每根拉杆的次数加上常数 1 ,这确保每个动作**至少被探索一次**
#57
StevenJokess
opened
1 year ago
0
MARL的PPT的第7页和8页参考文献咋相同?
#56
StevenJokess
opened
1 year ago
1
第三章 马尔科夫决策过程 3.3.1计算回报的函数有问题
#55
Sen1553
opened
1 year ago
0
第八章 `In [7]`代码块,VAnet() 疑似有误
#54
Aegis1863
opened
1 year ago
1
第8章 拓展阅读公式推导结果有误,补充分部积分过程
#53
Aegis1863
opened
1 year ago
0
第9章-策略梯度算法 中的交叉熵损失体现在代码哪里 ?
#52
chensisi0730
opened
1 year ago
0
关于开发环境配置
#51
mellody11
opened
1 year ago
4
第七章DQN代运行报错
#50
ShuoZheLi
opened
1 year ago
3
制作了 EPUB 格式
#49
wizardforcel
opened
1 year ago
0
DQN和AC算法中的q_targets的loss计算为什么最后要乘(1-done)呢?
#48
superbignut
opened
1 year ago
2
蒙特卡罗采样动作和状态 temp变量为什么是累加呢
#47
ChengchengDu
opened
1 year ago
1
DDPG算法篇笔误
#46
Neuerliu
closed
1 year ago
1
第18章cql代码
#45
Jaceyxy
opened
1 year ago
0
第十四章SAC 算法代码实践中tanh_normal分布的对数概率密度不太对
#44
SurprisedCat
opened
1 year ago
11
第十六章 模型预测控制 EnsembleModel类:train方法的问题
#43
Yandong23
opened
1 year ago
1
Next