[SpaceshipEnv] przekazywanie prev_obs i action do funkcji reward

MIMUW-RL / space-gym

Challenging reinforcement learning environments with locomotion tasks in space

9 stars 0 forks source link

[SpaceshipEnv] przekazywanie prev_obs i action do funkcji reward #5

Closed dzako closed 3 years ago

dzako commented 3 years ago

Funkcja reward powinna byc definiowana w oparciu tez o prev_obs i action i.e. R(st, s{t+1}, a) tak np w Obs envie potrzebuje prev_obs do liczenia zmiany kata st -> s{t+1} (ew. mozna rozwazyc dodanie tego do vektora obserwacji), norma akcji uzywana jako miara 'ekonomicznosci' , https://github.com/MIMUW-RL/gym-space/blob/jaco/gym_space/envs/orbit.py poki co zrobilem hacka

jettjaniak commented 3 years ago

Akcja jest dostępna w self.last_action. Używanie poprzedniego stanu do liczenia rewarda psuje właściwość MDP. A prędkość kątową względem środka planety można policzyć na podstawie położenia i prędkości xy.