Cattharine / product_owner_rl

0 stars 2 forks source link

Guidance experements #49

Closed krutovsky-danya closed 5 months ago

krutovsky-danya commented 5 months ago

Проверил как менятся обучение агента, если ограничить ему действия. Сильно меняется, процесс значительно ускоряется, остальное смотри в experiments/guidance_experiments

krutovsky-danya commented 5 months ago

Картинку переделал) По поводу параметров: В гите можно выбирать конкретный коммит, на который нужно встать. Таким образом можно оказаться в состоянии репозитория в котором только что случился мержд ветки в main

krutovsky-danya commented 5 months ago

Вообще хотелось бы в будущем убрать флаг with_info, раз мы доказали его эффективность и сделать логику такой, что всегда используется информация о доступных ходах

Cattharine commented 5 months ago

По поводу параметров: В гите можно выбирать конкретный коммит, на который нужно встать. Таким образом можно оказаться в состоянии репозитория в котором только что случился мержд ветки в main

А, ты об этом... С моей точки зрения такой способ выглядит странненьким и неявным, но ладно.

Вообще хотелось бы в будущем убрать флаг with_info, раз мы доказали его эффективность и сделать логику такой, что всегда используется информация о доступных ходах

Зачем? Лично мне этот флаг не мешает)