yoon-gu / ezlab-rl

1 stars 2 forks source link

SEIAR learning rate #14

Closed boyeon-kim closed 9 months ago

boyeon-kim commented 9 months ago

scailing ver. result

initial step

Pasted Graphic

learning rate = 1e-3

2nd step

Pasted Graphic 1

result

image image
yoon-gu commented 9 months ago

이게 아까 말한 learning rate 바꿔서 실험해서 얻은 결과인가요!?

boyeon-kim commented 9 months ago

initial step

Pasted Graphic

learning rate = 1e-7

2nd step

step 3

7000번 iteration reward SLIAR_score_7000

boyeon-kim commented 9 months ago

Learning rate = 1e-5

Pasted Graphic 4

10000번 iteration reward SLIAR_score_10000

image

요거는 더 길게 런을 안해봐서 길게 해보고 결과 한 번 올려보겠습니다!

boyeon-kim commented 9 months ago

지금 그림 다시 유심히 보니, reward 패널티를 너무 적게 준게 아닌가 하는 생각이 듭니다.. 현재 reward design이 -I -nu 로 되어있고, penalty로 -200,000주고 Scaling을 1e-7로 한 상태입니다. total nu max가 5,000,000을 넘으면 안되는데, 가뿐하게 50,000,000까지 다 사용하려는거 같아서,

현재까지 결과로 머리 속을 좀 정리해서 이쪽 계획 업로드 해보겠습니다~! 혹시, 생각해봐야 하는거 있으면 던져주시면 고민해보겠습니다 : )

yoon-gu commented 9 months ago

일단 total은 리워드에서 빼고 진행하는걸 추천합니다. 일단 그거 없이 되나 보져