skjw1224 / epelRL

0 stars 0 forks source link

Maintenance #65

Closed J0ONSO0 closed 4 months ago

J0ONSO0 commented 1 year ago

Branch for code structure maintenance such as:

J0ONSO0 commented 1 year ago

수정 필요한 부분

skjw1224 commented 1 year ago

README에 예시 실행문 작성.. python main.py

J0ONSO0 commented 7 months ago

2024.04.16. 회의 전 이슈 정리

J0ONSO0 commented 7 months ago

2024.05.02. 회의 전 이슈 정리

Reinforcement learning for control: Performance, stability, and deep approximators

  1. 각 알고리즘 별 설명 작성 중 --> 분량은 얼마나?
  2. 개략적인 구성은? introduction / RL / algorithms / environments / results & discussion / conclusion
J0ONSO0 commented 6 months ago

2024.05.16. 회의 전 이슈 정리

  1. Replay buffer 구조 변경 -- replay_buffer.py --> buffer.py 파일로 변경 -- BaseBuffer를 ReplayBuffer & RolloutBuffer에서 상속하는 구조 -- ReplayBuffe와 RolloutBuffer는 sample method만 다른 형태 -- 기존 deque 구조에서 numpy array 사전 할당: 컴퓨팅 속도 향상! -- 모든 알고리즘에 대해서 호환 가능하도록 변경 완료
  2. PID controller 추가 -- utility/pid.py 파일 추가 -- Add setter & getter for PID gain & reference -- Trainer class에 warm_up_data method 추가 완료 -- 각 환경 별로 get_observ method 추가 필요 --> y_fnc 활용은 어떻게? input으로 state, action, parameter noise 넣어주는 형태?

yplus = self.y_fnc(xplus, u, self.p_mu, self.p_sigma, self.p_eps).full()

  1. writing -- A2C, PI2, iLQR, SDDP, GDHP 알고리즘 제외하고 algorithm 소개 글 작성 완료 -- 각 챕터 구성은 어떻게? EPEL_RL_manuscript.pdf
skjw1224 commented 6 months ago
  1. Intro
  2. RL Basics: VI, PI, AC, Model-based (LQR) --> D. Silver Lecture, Busoniu Paper
  3. RL Advances: Policy search: PG, NG, EM, IT (Information theoretic ~ Variational Inference) --> Berkeley lecture, policy search (pdf, paper)
  4. Algorithms: 구현한것만 pseudocode 형태로
  5. Environments
  6. Simulation Results
  7. Outlook: S. Levine review, Bousinou review (보류)
  8. Conclusion PolicySearch2.pdf PolicySearch.pdf

RL 분류.xlsx