rlcode / reinforcement-learning-kr

[파이썬과 케라스로 배우는 강화학습] 예제
MIT License
371 stars 228 forks source link

p.198 수식 5.21 질문 #53

Open driedpollack opened 4 years ago

driedpollack commented 4 years ago

안녕하세요. 좋은 책으로 즐겁게 공부하고 있습니다. p.198에 수식 5.21에 보면 policy gradient theorem에 의해서 유도된 gradient J (theta)가 expectation의 형태로 나타나지는데, 이 부분에 대한 식이 잘 이해가 안되서 Sutton 교수님의 RL:an introduction 책을 살펴보니 이 책에는 Expectation 안에 Sigma가 있는데 (구체적으로 Sutton 교수님 책 p.326, equation 13.6입니다.) 혹시 오타인가요?

이는 p.198 중간 쯤에 sigma_s d_pi(x) sigma_a * pi(a | s)가 에이전트가 어떤 상태 s에서 행동 a를 선택할 확률이라는 부분에서 오류가 있는 것 같습니다.

혹시 제가 잘못 이해하고있다면, 보충 설명이나 자료 공유해주시면 감사하겠습니다.