Introduce new data exchange scheme

faherngeit commented 2 years ago

Предлагаю такой план:

Модель отправляет два поля: state, номер по порядку и, условно, model_id. При первом пуске там None или -1. Когда сервер поулчает запрос с model_id = -1, он создает у себя в словаре дек для этой модели, генерирует индекс – ключ, который вместе с новыми настройками отправляет обратно.
Модель получает настройки и model_id, первые применяет, последние – сохраняет себе и далее вставляет в каждый следущий запрос.
В результате когда сервер получает произвольный запрос с состоянием, по model_id он определяет объект внутри словаря, куда следует положить данные, а порядковый номер позволяет упорядочить отдельные компоненты.
По окончанию моделирвоания модель передает массив наград , присвоенных им меток и model_id. В результате чего на сервере я смог приклеить награду к нужному куску данных (состоянию, действиею и т.д.)

MikhailShakirov commented 2 years ago

Про какие "настройки" идет речь?

faherngeit commented 2 years ago

Настройки регулятора – action

faherngeit / rl_pss