Closed dzako closed 3 years ago
jakkolwiek liczone (backprop przez solver lub wariacyjne rownania) to mysle, bedzie ciekawy featur naszego enva, pozwoli na uczenie policy metodami klasycznej optymalizacji, lub poprawy/sprawdzenia na ile jest optymalne policy RLowe
Ustaliliśmy, że zrobię metodę enva, która będzie zwracała pole wektorowe.
https://github.com/MIMUW-RL/gym-space/commit/f8eab9b682a7800f7b373bf967a51e53616de066
jakkolwiek liczone (backprop przez solver lub wariacyjne rownania) to mysle, bedzie ciekawy featur naszego enva, pozwoli na uczenie policy metodami klasycznej optymalizacji, lub poprawy/sprawdzenia na ile jest optymalne policy RLowe