Closed kazeevn closed 6 years ago
Так же вопрос что делать в таком случае с time to request
. Мы можем оставить его как было и получается сразу на следующей итерации запросить action
, возможно это имеет смысл. Либо обновить его на то значение, которое вернет агент.
Дмитрий Дубов
насколько я сегодня понял правильно Сашу (за пару минут), в policy-based или value-based подходах можно как-то нормализовать распределения чтобы неподходящие actions не выбирались никогда. Я постараюсь поточнее понять)
Решили:
Какое поведение закладывать, если запрошенный манёвр некорректен (не хватает топлива/слишком большой импульс)?
Наивные идеи: