请问在实现 Actor-Critic算法的时候，有过将网络层共享的案例嘛

PaddlePaddle / PARL

A high-performance distributed training framework for Reinforcement Learning

https://parl.readthedocs.io/

Apache License 2.0

3.24k stars 819 forks source link

Open A5230171 opened 2 years ago

A5230171 commented 2 years ago

我提问的是，Actor 需要输入状态state，Critic 需要输入状态state，动作 action。那么是否可以 Actor 模型和 Critic 模型共享网络（状态state 特征提取）呢？

TomorrowIsAnOtherDay commented 2 years ago

目前还没有呢，我们补充一个，感谢你的反馈：）

A5230171 commented 2 years ago

我最近有根据，PARL/examplex/DDPG的程式范例，也是使用mujoco一样的环境。

结合这篇论文《Integrated Actor-Critic for Deep Reinforcement Learning》的设计思想（链接https://par.nsf.gov/servlets/purl/10333252）进行试验，但是貌似实验，失败了哈哈哈！

才想问问看！