Tem algo errado com o critério de finalização do episódio

Ao executar um agente com o algoritmo reinforce, percebi o seguinte comportamento:

Episode = 491, Actions = 7, Rewards = -1105.0
Episode = 492, Actions = 1, Rewards = -1000
Episode = 493, Actions = 1, Rewards = -1000
Episode = 494, Actions = 1, Rewards = -1000
Episode = 495, Actions = 6, Rewards = -1203.0
Episode = 496, Actions = 6, Rewards = -1203.0
Episode = 497, Actions = 4, Rewards = -1003
Episode = 498, Actions = 2, Rewards = -1100.0
Episode = 499, Actions = 18, Rewards = -1314.0
Episode = 500, Actions = 5, Rewards = -1202.0
Episode = 501, Actions = 4, Rewards = -1102.0
Episode = 502, Actions = 3, Rewards = -1101.0
Episode = 503, Actions = 52, Rewards = -1645.0

Trata-se de um ambiente com 1 único drone e posicionado na posição [25,25]. Como é que pode um episódio terminar com apenas 1 action neste cenário?

pfeinsper / drone-swarm-search

Tem algo errado com o critério de finalização do episódio #83