rlcode / reinforcement-learning-kr

[파이썬과 케라스로 배우는 강화학습] 예제
MIT License
371 stars 228 forks source link

monte carlo에서 왜 last visit 방식으로 구현? #41

Open hccho2 opened 4 years ago

hccho2 commented 4 years ago

MC방법에서는 first visit, every visit 방식이 있는 것으로 알고 있습니다. 코드 구현은 last visit 방식인데, 이유가 있나요?