Closed tsyu12345 closed 1 week ago
1度目のタワー到達 + 誘導後にまだか抱えている避難者がいる場合、タワー選択をしなかったら個別のエージェントに対し負の報酬を与えてみる。
現在のフェーズ(誘導or探索)を観測としてエージェントに与える
モデル分割 : https://discussions.unity.com/t/multi-task-reinforcement-learning-in-ml-agents/816768/2
上記コミットで一旦訓練し、様子見
現在誘導している避難者がいるにも関わらず、1度行ったタワーから動いてくれない