NikuKikai / RL-on-SUMO

Demos of reinforcement learning on Simulation of Urban MObility
50 stars 32 forks source link

agent 神经网络 #1

Open wuhaosheng opened 3 years ago

wuhaosheng commented 3 years ago

您好 请问一下您是否还能讲述一下您在构建agent.py中的3个神经网络:subnet actornet 以及criticnet网络的构建方法,我使用的时候对于3个网络的构建不是特别清楚,其次是您在定义环境的时候那个place_lane是代表什么意思

NikuKikai commented 3 years ago

关于网络

强化学习的最普遍的结构 Actor Critic,可以参考A3C的原论文以及OpenAI的Baselines里的实现。 这里的subnet是Actor网络和Critic网络共享的部分,输入通过subnet后再分别输入Actor和Critc,意思是subnet对输入抽象之后再分别用来算Action和Value。当然对于这种简单的问题,直接A和C两个网络也完全没问题。

place_len ?

我这里是把道路离散化了。训练会比较容易。

每place_len=7.5m 长度作为一个place,整条道路的状态就是若干个place构成的一个向量。 每个位的值表示每个place里面有多少车(当然可以是小数

其他

另外我不太记得github上的这个程序是不是真的能学的了,后面做的都没有上传。 还有就是这个太早了,用的tensorflow1.4,用现在的tensorflow2的keras写应该会清晰很多。