Мы сильно ускорим обучение, если действия будут, кроме ΔV, содержать время, через которое надо снова обратиться к алгоритму за указаниями. Иначе ему придётся долго учить много "пропусков хода". Так говорил Саша Панин.
Я добавил в Environment поле next_action. В симуляторе, проверяется, настало ли время начинать взаимодействие среды и агента, и если текущее время превышает или равно времени next_action, то запускается алгоритм.
Мы сильно ускорим обучение, если действия будут, кроме ΔV, содержать время, через которое надо снова обратиться к алгоритму за указаниями. Иначе ему придётся долго учить много "пропусков хода". Так говорил Саша Панин.