Closed fbarth closed 1 year ago
Ao executar um agente com o algoritmo reinforce, percebi o seguinte comportamento:
Episode = 491, Actions = 7, Rewards = -1105.0 Episode = 492, Actions = 1, Rewards = -1000 Episode = 493, Actions = 1, Rewards = -1000 Episode = 494, Actions = 1, Rewards = -1000 Episode = 495, Actions = 6, Rewards = -1203.0 Episode = 496, Actions = 6, Rewards = -1203.0 Episode = 497, Actions = 4, Rewards = -1003 Episode = 498, Actions = 2, Rewards = -1100.0 Episode = 499, Actions = 18, Rewards = -1314.0 Episode = 500, Actions = 5, Rewards = -1202.0 Episode = 501, Actions = 4, Rewards = -1102.0 Episode = 502, Actions = 3, Rewards = -1101.0 Episode = 503, Actions = 52, Rewards = -1645.0
Trata-se de um ambiente com 1 único drone e posicionado na posição [25,25]. Como é que pode um episódio terminar com apenas 1 action neste cenário?
a posicao do drone é definida via env.reset()
Ao executar um agente com o algoritmo reinforce, percebi o seguinte comportamento:
Trata-se de um ambiente com 1 único drone e posicionado na posição [25,25]. Como é que pode um episódio terminar com apenas 1 action neste cenário?