Maintenance - Githubissues

J0ONSO0 commented 1 year ago

Branch for code structure maintenance such as:

class abstraction
configuration e.g. argparse, flag
notation

J0ONSO0 commented 1 year ago

수정 필요한 부분

env, algo, buffer에 대해서 abstract base class (abc) 설정
approximator: NN & RBF --> network: MLP, RBF, & Actor/Critic 형태로
train.py & test.py 형태로 분리
폴더 별로 각 코드 정리 (environment, algorithm, replay_buffer, network)
hyperparameter tuning을 위해서 argparse 기능 사용하도록

skjw1224 commented 1 year ago

README에 예시 실행문 작성.. python main.py

J0ONSO0 commented 7 months ago

2024.04.16. 회의 전 이슈 정리

algorithm
1. DQN, QRDQN, DDPG, SAC, GDHP, A2C, TRPO, PPO, iLQR --> 작동 가능 / SDDP, REPS, PoWER, PI2 --> 수정 필요
2. DDPG --> TD3 변경? TD3 algorithm 구현 이후에 DDPG는 해당 class 상속해서 사용하는 방안 TD3도 같이 코딩
3. cost minimization & reward maximization을 상황에 따라 바꾸는 게 덜 헷갈리지 않을지 minimization으로 통일
4. A2C 알고리즘에서 advantage 계산에 MC or TD? TD로 해놓고 MC 주석은 지우지말기
5. iLQR, SDDP 알고리즘에서 algorithm class에 env class를 직접 넣고 필요할 때마다 deriv를 계산해서 사용하는 형태, 다른 알고리즘과의 통일성을 위해서 env class를 밖으로 빼고 deriv 계산해서 replay buffer에 넣어서 사용하는 형태로 수정 필요 (iLQR은 완료)
6. iLQR, SDDP, REPS, PoWER, PI2 같이 neural network 아예 안 쓰는 알고리즘들은 device를 "cpu"로 고정하고, torch 대신 numpy만 사용? (REPS, PoWER, PI2에서는 approximator로 torch RBF 사용하는데 차라리 numpy로 구현해서 사용하는 게 나을 수도) 5개 알고리즘 모두 numpy로 통일, replay buffer sample가 torch 데이터인 이슈가 있음
environment
1. environment에 y (observation)와 t (time) 변수가 어디에 쓰이는지? 쓰이지 않는다면 삭제해주는 게 좋을 듯함 y, t는 self변수로 놓고 environment.step 메서드의 출력변수에서는 제외
2. environment에서 noise term (state noise, observation noise, or parameter noise)는 따로 사용 안해도 괜찮을지? 현재 CSTR class에는 parameter noise 항이 구현되어 있기는 함! additive state noise 를 option으로 추가, parameter noise는 cstr env에 specific함..
3. environment에서 casadi의 symbolic expression 사용하는 method들 (sym_expressions, eval_model_derivs, ode_state_sensitivity, ode_cost_sensitivity, jac_hess_eval)은 environment specific하지 않으므로 base environment에 넣어서 이후에 개발할 env에서는 상속해서 사용해도 괜찮을 듯함 통째로 base environment로 이동
4. environment의 step method에 대해서 input/output 값은 descale 된 값 (original magnitude)으로 들어가고 나가는 게 직관적으로 맞는 것 같으나, cost 및 deriv 계산할 때 영향 주는지 확인 필요 일단 scale/descale 현재 형태로..
5. env plot은 이미 trainer로 옮겼으므로 삭제

J0ONSO0 commented 7 months ago

2024.05.02. 회의 전 이슈 정리

algorithm
1. 모든 알고리즘 작동 가능
2. iLQR, SDDP, PoWER, PI2 --> loss value 어떤 값으로 print & save 해야 할지?
3. 각 알고리즘 별 코드 검토 필요 (TRPO, PPO, SDDP, REPS, PoWER, PI2) --> 종우, 혜인 검토
environmnet
1. env.real_env 변수는 무엇을 위한 변수?
2. 변수 scale 할 때 범위 [-1, 1] 혹은 [0, 1] 하나로 통일? 혹은 결정해주는 변수 설정해서 설정할 수 있도록? --> default [-1, 1]
utils
1. replay buffer를 base buffer, off-policy, on-policy, model-based 형태로 나눠서 사용하는 방안 -- off-policy (DQN, QRDQN, DDPG, TD3, SAC): 기존과 동일 -- on-policy (A2C, TRPO, PPO): log_prob, advantage 값을 buffer에서 계산 및 샘플 --> log prob, advantage는 굳이 저장하지 않아도 될듯, 코드가 어려워지기때문 -- model-based (GDHP, iLQR, SDDP): derivative 값을 저장 및 샘플 -- RBF based (REPS, PoWER, PI2): numpy type으로 샘플 (https://github.com/DLR-RM/stable-baselines3/blob/master/stable_baselines3/common/buffers.py)
2. PID controller tuning 필요
3. Initial controller or warm-up dataset 활용 -- on-policy algorithm의 경우 해당 사항 없을 듯? 그래도 코드상에 있기는 해야할듯
writing EPELRL.pdf

Reinforcement learning for control: Performance, stability, and deep approximators

각 알고리즘 별 설명 작성 중 --> 분량은 얼마나?
개략적인 구성은? introduction / RL / algorithms / environments / results & discussion / conclusion

J0ONSO0 commented 6 months ago

2024.05.16. 회의 전 이슈 정리

Replay buffer 구조 변경 -- replay_buffer.py --> buffer.py 파일로 변경 -- BaseBuffer를 ReplayBuffer & RolloutBuffer에서 상속하는 구조 -- ReplayBuffe와 RolloutBuffer는 sample method만 다른 형태 -- 기존 deque 구조에서 numpy array 사전 할당: 컴퓨팅 속도 향상! -- 모든 알고리즘에 대해서 호환 가능하도록 변경 완료
PID controller 추가 -- utility/pid.py 파일 추가 -- Add setter & getter for PID gain & reference -- Trainer class에 warm_up_data method 추가 완료 -- 각 환경 별로 get_observ method 추가 필요 --> y_fnc 활용은 어떻게? input으로 state, action, parameter noise 넣어주는 형태?

yplus = self.y_fnc(xplus, u, self.p_mu, self.p_sigma, self.p_eps).full()

writing -- A2C, PI2, iLQR, SDDP, GDHP 알고리즘 제외하고 algorithm 소개 글 작성 완료 -- 각 챕터 구성은 어떻게? EPEL_RL_manuscript.pdf

skjw1224 commented 6 months ago

Intro
RL Basics: VI, PI, AC, Model-based (LQR) --> D. Silver Lecture, Busoniu Paper
RL Advances: Policy search: PG, NG, EM, IT (Information theoretic ~ Variational Inference) --> Berkeley lecture, policy search (pdf, paper)
Algorithms: 구현한것만 pseudocode 형태로
Environments
Simulation Results
Outlook: S. Levine review, Bousinou review (보류)
Conclusion PolicySearch2.pdf PolicySearch.pdf

RL 분류.xlsx

skjw1224 / epelRL

Maintenance #65