monte carlo에서 왜 last visit 방식으로 구현?

rlcode / reinforcement-learning-kr

[파이썬과 케라스로 배우는 강화학습] 예제

MIT License

371 stars 228 forks source link

Open hccho2 opened 4 years ago

hccho2 commented 4 years ago

MC방법에서는 first visit, every visit 방식이 있는 것으로 알고 있습니다. 코드 구현은 last visit 방식인데, 이유가 있나요?