Closed whikwon closed 5 years ago
또한 위 내용을 기반으로 아래 레포의 구현을 설명드릴 예정입니다. (논문의 내용대로 구현된 부분, 논문과는 다른 부분 등 토의)
전 추가적으로 DDPG 계열에서 발전한 내용 조사랑 Repo에 구현이 얼마나 되어 있는지 조사를 해서 공유드리겠습니다. (task 산출을 위함.)
내일 DDPG 기본적으로 논의 마친 뒤에 Overcoming exploration from demos 논문 기반 DDPGfD 구현에 HER, PER, TD3 각자 task로 나눠서 잡고 구현하면 될 듯 한데 어떠신가요?
결과물은 논문에서 해당 내용 요약, 구현 코드, 테스트 가능 할 시에 테스트 코드 정도로요.
하나 더 추가하고 싶은 건 빠른 학습을 위한 Ape-X DDPG 구현입니다. (분산처리) 대충 성능 아래 참고하세요. https://ray.readthedocs.io/en/latest/rllib-algorithms.html
soft target update & hard target update 차이점이 무엇일까요?
@whikwon 허용되는 시간동안 유연하게 진행하면 좋을것 같습니다. 저는 개개인 학습성향 및 이해도를 파악하는데 금일 중점을 두겠습니다. @OPAYA 천천히 엎어치냐 한번에 엎어치냐의 차이입니다. 이따 더 자세히 다루겠습니다.
@OPAYA @Curt-Park DDPG에 쓰인 Polyak averaging 얘기하시는거지요??
@mch5048 이 부분입니다.
용어는 다양한것 같은데 그냥 convex combination입니다.
The weights of these target networks are then updated by having them slowly track the learned networks: θ′ ← τθ + (1 − τ)θ′ with τ ≪ 1
@OPAYA @Curt-Park @mch5048 말씀하신 내용들이 맞는거 같습니다. 코드에 soft update가 polyak averaging, hard update는 그냥 덮어쓰기
논문 리뷰는 논문의 흐름을 서술흐름을 따를 예정입니다.
1. 아이디어의 배경
2. 주요 아이디어
3. 알고리즘
4. 실험
5. 토론