Open seong-hun opened 2 years ago
GPI라는 개념을 구분해서 알지 못 하는데 궁금해지네요~ 시간 내서 함께 해보고 싶네요 우선 논문 다운로드 받았습니다
남훈이형 안녕하세요ㅎㅎ
GPI에 대해서는 저는 (Sutton and Barto, 2018)의 4.6절에서 설명한대로 "policy evaluation과 policy improvement가 일종의 방식으로 상호작용하는 기법" 이해하고 있습니다. 따라서 PI와 VI 또한 GPI 기법에 속하는 것으로요.
(Varbie and Lewis, 2009)와 (Lee et al. 2014)에서 또한 GPI로 분류될 수 있는 한 기법을 제시했습니다. (PI나 VI가 아닌) 이 기법들은 policy evaluation 단계에서 policy의 정확한 value function을 구하지 않고, approximation (NN approx. 등과 다름)을 구합니다.
Vrabie, D., & Lewis, F. L. (2009). Generalized Policy Iteration for continuous-time systems. 2009 International Joint Conference on Neural Networks, 3224–3231. https://doi.org/10.1109/IJCNN.2009.5178964
Lee, J. Y., Park, J. B., & Choi, Y. H. (2014). On integral generalized policy iteration for continuous-time linear quadratic regulations. Automatica, 50(2), 475–489. https://doi.org/10.1016/j.automatica.2013.12.009
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (F. Bach, Ed.; second edition edition). A Bradford Book.
저도 한번 읽어보고 싶습니다~
저도 한번 읽어보고 싶습니다~
오 좋습니다~
Generalized PI (GPI) method는 PI와 VI를 포함하는 조금 더 일반화된 업데이트 방식입니다.
연속시간 시스템에 대해서 GPI 기법이 처음 적용된 것은 제가 알기로는 다음 논문에서 입니다.
이 논문에서는 일반적인 PI 기법을 확장해서 GPI를 소개하는데, 이 방식이 정답이라고 할 수 없지만 PI, GPI, VI를 구분구분 지어서 잘 설명하고 있어서 개념을 잡는데 도움이 되지 싶습니다.
혹시 같이 리뷰 해보실 생각 있으신지요?