akaridoi / DDPG_humangait

0 stars 0 forks source link

1210進捗 #13

Open akaridoi opened 3 years ago

akaridoi commented 3 years ago

rewardは関節角度のみ考慮していたので,骨盤の速度を追加してより精度の高い評価ができるようにする

state_desc['body_vel_rot']['pelvis'][0]2 +state_desc['body_vel_rot']['pelvis'][1]2 +state_desc['body_vel_rot']['pelvis'][2]**2 +

akaridoi commented 3 years ago

骨盤の角速度がない時は骨盤のみだれによって脚の幅のみだれがおおきくなっていた.(骨盤のところの筋肉が毎回一番最初に赤くなる) 関節は逆に前みたいに折れることはすくないきがした

akaridoi commented 3 years ago

最初に与えられる力が弱い方がいいんじゃないか. randomだとすぐにactionが1に近づいて飽和してしまう.

学習率を一桁づつ変えてとり→結構変わる どうしてそんなに学習率依存??

activationの数値が小さいことが重要 ✖️

randomの数値が似通っているのはなぜ??-結局,NNのあとに吐き出されているactionだったから,

akaridoi commented 3 years ago

randomで作るものを-1.0から1.0で出力をしてみた

get_actorではtanhで出力しているので -1.0~1.0の方が理にかなっている

akaridoi commented 3 years ago

次考えること ・5000回以降のコードをそのまま学習させるだけなのか? ・if文を噛ませてもいいんじゃないか ・5000回超えたときにきちんと0とかの傾向ができたら ・episodeは倒れるまでなので長くなっていることは良いこと