feature enva - dodanie mozliwosci outputu różniczek dr/da i ds/da

MIMUW-RL / space-gym

Challenging reinforcement learning environments with locomotion tasks in space

9 stars 0 forks source link

feature enva - dodanie mozliwosci outputu różniczek dr/da i ds/da #21

Closed dzako closed 3 years ago

dzako commented 3 years ago

jakkolwiek liczone (backprop przez solver lub wariacyjne rownania) to mysle, bedzie ciekawy featur naszego enva, pozwoli na uczenie policy metodami klasycznej optymalizacji, lub poprawy/sprawdzenia na ile jest optymalne policy RLowe

jettjaniak commented 3 years ago

Ustaliliśmy, że zrobię metodę enva, która będzie zwracała pole wektorowe.

jettjaniak commented 3 years ago

https://github.com/MIMUW-RL/gym-space/commit/f8eab9b682a7800f7b373bf967a51e53616de066