Open grooviiee opened 1 year ago
본 시뮬레이션의 MAPPO 구현는 기존 policy based 알고리즘과 동일하게 actor-critic 아키텍쳐를 사용한다. CTDE라고 해서 critic 함수를 cetralized하게 학습한 뒤, 각자의 policy network대로 동작을 수행한다.
본 시뮬레이션의 MAPPO 구현는 기존 policy based 알고리즘과 동일하게 actor-critic 아키텍쳐를 사용한다. CTDE라고 해서 critic 함수를 cetralized하게 학습한 뒤, 각자의 policy network대로 동작을 수행한다.