actor 和 critic 网络没有forward 是如何训练的？看不懂

songwenas12 / fjsp-drl

Apache License 2.0

201 stars 55 forks source link

请问在PPO_model.py 文件里，forward 是空的，为什么可以通过evaluate 函数实现呢？实在没搞懂这样的话HGNNScheduler 网络里的 actor 和 critic 是怎么训练的？ evaluate 函数，里面使用了 actor 和 critic ，那actor 网络的含义是什么啊？初始化的输出只有1维，如何输出 action的分布呢？是通过里面的 act 和 get_action_prob 函数实现的？那在test的时候还是通过函数实现而不是通过神经网络interfence得到结果的啊？
菜鸡懵逼ing

songwenas12 / fjsp-drl

actor 和 critic 网络没有forward 是如何训练的？看不懂 #8