buffer 대신 mp 로 한 이유가 궁금하군요

jcwleo / awr-pytorch

Advantage-Weighted Regression

MIT License

10 stars 2 forks source link

Closed sjYoondeltar closed 4 years ago

sjYoondeltar commented 4 years ago

jason peng의 논문보면 아예 awr를 off policy로 분류하고, buffer sampling을 하는데 코드는 ppo 나 a3c 처럼 mp로 구현되어 있길래 여쭤보고 싶었습니다.

jcwleo commented 4 years ago

@sjYoondeltar 아 mp로 한건 의미 없습니다. 제가 사용했던 코드 재사용하느라 그대로 가져왔다고 보시면 됩니다. 실제로 mp를 사용한 부분은 없습니다만 추후 리플레이를 모을때 더 빠르게 모으기 위해 개선할 계획은 있습니다.

sjYoondeltar commented 4 years ago

@jcwleo 그렇군요 ㅋ buffer를 쓰는 방식이 그 예전에 있었던 acer랑 비슷해보여서 그걸 가져다 수정해봐도 괜찮을거 같아요 ㅋ

jcwleo commented 4 years ago

@sjYoondeltar ACER를 아직 제대로 봐본적이 없어서... 예전에 논문 리뷰할때 어렵다고 했던것만 기억나네요 ㅠㅠ