Funkcja reward powinna byc definiowana w oparciu tez o prev_obs i action i.e. R(st, s{t+1}, a)
tak np w Obs envie potrzebuje prev_obs do liczenia zmiany kata st -> s{t+1} (ew. mozna rozwazyc dodanie tego do vektora obserwacji), norma akcji uzywana jako miara 'ekonomicznosci' ,
https://github.com/MIMUW-RL/gym-space/blob/jaco/gym_space/envs/orbit.py
poki co zrobilem hacka
Akcja jest dostępna w self.last_action. Używanie poprzedniego stanu do liczenia rewarda psuje właściwość MDP. A prędkość kątową względem środka planety można policzyć na podstawie położenia i prędkości xy.
Funkcja reward powinna byc definiowana w oparciu tez o prev_obs i action i.e. R(st, s{t+1}, a) tak np w Obs envie potrzebuje prev_obs do liczenia zmiany kata st -> s{t+1} (ew. mozna rozwazyc dodanie tego do vektora obserwacji), norma akcji uzywana jako miara 'ekonomicznosci' , https://github.com/MIMUW-RL/gym-space/blob/jaco/gym_space/envs/orbit.py poki co zrobilem hacka