[120분] DDPG 논문 및 코드 리뷰

Curt-Park commented 5 years ago

논문 리뷰는 논문의 흐름을 서술흐름을 따를 예정입니다.

1. 아이디어의 배경

DQN이 대박남
하지만 DQN은 Discrete하며 low-dimensional action spaces만을 고려
차원의 저주 문제가 발생
Physical control 문제 같은 continuous domain은 다룰 수 없음
High-dimensional, continuous action space에서 policy를 학습할 수 있는 model-free, off-policy actor-critic algorithm 제시.

Curt-Park commented 5 years ago

또한 위 내용을 기반으로 아래 레포의 구현을 설명드릴 예정입니다. (논문의 내용대로 구현된 부분, 논문과는 다른 부분 등 토의)

whikwon commented 5 years ago

전 추가적으로 DDPG 계열에서 발전한 내용 조사랑 Repo에 구현이 얼마나 되어 있는지 조사를 해서 공유드리겠습니다. (task 산출을 위함.)

whikwon commented 5 years ago

내일 DDPG 기본적으로 논의 마친 뒤에 Overcoming exploration from demos 논문 기반 DDPGfD 구현에 HER, PER, TD3 각자 task로 나눠서 잡고 구현하면 될 듯 한데 어떠신가요?

결과물은 논문에서 해당 내용 요약, 구현 코드, 테스트 가능 할 시에 테스트 코드 정도로요.

whikwon commented 5 years ago

하나 더 추가하고 싶은 건 빠른 학습을 위한 Ape-X DDPG 구현입니다. (분산처리) 대충 성능 아래 참고하세요. https://ray.readthedocs.io/en/latest/rllib-algorithms.html

OPAYA commented 5 years ago

soft target update & hard target update 차이점이 무엇일까요?

Curt-Park commented 5 years ago

@whikwon 허용되는 시간동안 유연하게 진행하면 좋을것 같습니다. 저는 개개인 학습성향 및 이해도를 파악하는데 금일 중점을 두겠습니다. @OPAYA 천천히 엎어치냐 한번에 엎어치냐의 차이입니다. 이따 더 자세히 다루겠습니다.

mch5048 commented 5 years ago

@OPAYA @Curt-Park DDPG에 쓰인 Polyak averaging 얘기하시는거지요??

Curt-Park commented 5 years ago

@mch5048 이 부분입니다.

용어는 다양한것 같은데 그냥 convex combination입니다.

The weights of these target networks are then updated by having them slowly track the learned networks: θ′ ← τθ + (1 − τ)θ′ with τ ≪ 1

whikwon commented 5 years ago

@OPAYA @Curt-Park @mch5048 말씀하신 내용들이 맞는거 같습니다. 코드에 soft update가 polyak averaging, hard update는 그냥 덮어쓰기