grooviiee / python_uav

Challenge to Reinforcement learning.
0 stars 0 forks source link

Introduction to MAPPO #14

Open grooviiee opened 1 year ago

grooviiee commented 1 year ago

본 시뮬레이션의 MAPPO 구현는 기존 policy based 알고리즘과 동일하게 actor-critic 아키텍쳐를 사용한다. CTDE라고 해서 critic 함수를 cetralized하게 학습한 뒤, 각자의 policy network대로 동작을 수행한다.