Open utterances-bot opened 2 months ago
진짜..감사합ㄴ디ㅏ.. "압도적 감사" ㅡㅜㅠㅠ..
@tidls1995님께 도움이 된 것 같아 다행입니다ㅎㅎ. 제가 더 압도적으로 감사드립니다. 혹시 다른 PPO 구현체와 다르게 어떤 점에서 도움을 받으셨는지 알 수 있을까요?
다른 PPO구현체는 말씀하신대로 너무 잘 만들어진 라이브러리를 사용한분들이 많았습니다.. 저는 제 Costum Environment 로 A2C를 구현하고 있는 상황이였고 , 동일 환경에서 PPO알고리즘을 적용하기 위해 검색하고 있었습니다. 와중에 알아보기 쉽게 자세히 구현해주셔서 도움이 많이 됐습니다 ㅎㅎㅜ
@tidls1995 아하 그렇군요. 답변 감사드립니다! 제 구현체는 병렬환경 (vectorized environment)을 고려하지 않아서 비효율적이고, 각종 구현 디테일이 부족하여 성능이 떨어질 수 있습니다. 하나씩 채워가시면 더욱 좋을 것 같아요. 앞으로도 화이팅입니다!
17. PPO 구현 — 심층강화학습
https://hiddenbeginner.github.io/Deep-Reinforcement-Learnings/book/Chapter2/12-implementation-ppo.html