MessageEfficientMARL
- MAAF: Passing message always.
- MEMAAF : Passing message when it is expected necessary without communication. Otherwise, passing None
실험 개요
본 실험에서는 두 가지 에이전트(MAAF와 MEMAAF)를 대상으로 다양한 환경에서 학습 성능을 비교했습니다. MEMAAF 방식은 MAAF 방식에 Vector Quantization Representation을 추가하여 개선된 구조를 적용하였으며, 이를 통해 학습 성능을 평가하고자 했습니다. 실험의 주요 목표는 두 방식의 성능 차이를 분석하는 것이었으며, 특히 학습 지속 시 성능 저하 양상과 학습을 중단해야 하는 시점에 대한 분석이 포함됩니다.
실험 세팅
- 에이전트:
maaf_rnn
, memaaf_rnn
- 환경:
- mpe.tag_v2
- mpe.tag_v3
- mpe.tag_v4
- mpe.tag_v5
- mpe.spread_v2
- mpe.spread_v3
- mpe.spread_v4
- 신경망 구조:
- Number of layers: 3
- Hidden dimension: 128
- Message number of layers: 3
- Message hidden dimension: 128
- Message dimension: 48
- Activation function: Tanh
- Message activation: Tanh
- 학습 세팅:
- Learning rate: 1e-4
- Max cycles per environment: 200
- Number of steps: 128
- Total timesteps: 1,000,000
- Message handling index: 7
- Number of environments: 8
- Update epochs: 8
- Clip coefficient: 0.3
- Random seeds: 0, 1, 2
실험 결과
1. 학습 성능 비교
- MEMAAF 방식은 MAAF 방식과 전반적으로 유사한 학습 성능을 보였습니다. 이는 Vector Quantization Representation을 적용한 MEMAAF 방식이 MAAF의 기본 구조와 크게 다르지 않은 성능을 낸다는 것을 나타냅니다.
- MPE 환경에서의 성능 차이는 미미했으며, mpe.tag와 mpe.spread 환경에서 두 에이전트 간 성능 격차는 거의 없었습니다.
2. 학습 지속 시 성능 저하
- 두 에이전트 모두 초기 학습 구간에서는 안정적인 성능을 보였으나, 학습을 지속할수록 성능이 저하되는 경향을 보였습니다.
- 이는 학습이 진행될수록 에이전트가 과적합되거나, 환경 변화에 적응하지 못해 성능이 떨어지는 현상으로 분석됩니다.
3. Optimal State에서 학습 중단의 필요성
- 실험 결과, 두 방식 모두 특정 시점에서 학습을 중단하는 것이 성능 유지를 위해 중요함이 드러났습니다. Optimal state에서 학습을 중단하지 않으면 성능이 저하되는 문제가 발생했으며, 이는 장기적인 학습보다는 적절한 타이밍에서 학습을 멈추는 것이 성능 유지에 효과적이라는 결론을 도출할 수 있습니다.
결론
이번 실험을 통해 MEMAAF 방식이 MAAF 방식과 비슷한 성능을 보였으며, 학습을 지속할 경우 두 방식 모두 성능이 저하될 수 있음을 확인했습니다. 특히, 학습 성능을 유지하기 위해서는 Optimal state에서 학습을 중단하는 것이 중요한 전략으로 고려되어야 합니다. MEMAAF 방식의 Vector Quantization Representation 적용이 큰 성능 향상을 제공하지 않았다는 점 또한 이번 실험에서 주목할 만한 결과였습니다.