skjw1224 / epelRL

0 stars 0 forks source link

9/19 미팅 #73

Open skjw1224 opened 1 month ago

skjw1224 commented 1 month ago

9/22까지 종우: 대체 loss 만들기 + algorithm 점검 혜인: Loss와 termination criteria 관련 study ~ 9/26 준수: ~9/22 (RAY tuner)

9/22 - 9/31 서버에서 계산 + 글완성

skjw1224 commented 1 month ago

Performance stat 관련

  1. Loss 를 정하기
    • Convergence criteria를 정해야 함: Loss variance + Min episode
    • 어떤 algorithm은 loss자체가 없음 --> 대체 loss를 만들어야 함
    • iLQR, SDDP: |gain|
    • Power, PI2: actor만 있음
    • Loss variance (직전 x개의 residual variance < y)
  2. Loss 를 정하면 알고리즘 종료 기준과 성능 비교를 정확히 할수 있음
    • Average computation time per episode
    • Performance mean
    • Performance std
    • Number of episodes until termination
    • 보류: Hyperparameter sensitivity (common hyperparameter..?)
skjw1224 commented 1 month ago

TRPO/PPO: 코드점검 및 튜닝필요 REPS: 튜닝필요 (rbf size) iLQR/SDDP/GDHP 너무느림

skjw1224 commented 1 month ago

필요한 그래프

  1. 각 env, 각 alg의 training 과정
  2. Train이 끝났을때 하나의 env에서 algorithm간 성능 비교 (test function)
  3. 모든 env의 성능을 평균낸 방사형 plot
skjw1224 commented 1 month ago

혜인: 코드 마무리 준수: writing 종우: MPPI, 튜닝 마무리, writing