Switch action to (ΔV, time_to_next_action)

yandexdataschool / satellite-collision-avoidance

RL for optimal satellite collision avoidance maneuvres

26 stars 7 forks source link

Switch action to (ΔV, time_to_next_action) #2

Closed kazeevn closed 6 years ago

kazeevn commented 6 years ago

Мы сильно ускорим обучение, если действия будут, кроме ΔV, содержать время, через которое надо снова обратиться к алгоритму за указаниями. Иначе ему придётся долго учить много "пропусков хода". Так говорил Саша Панин.

Dsdubov commented 6 years ago

Я добавил в Environment поле next_action. В симуляторе, проверяется, настало ли время начинать взаимодействие среды и агента, и если текущее время превышает или равно времени next_action, то запускается алгоритм.