Open hnlee77 opened 2 years ago
다음 논문을 follow-up 해보려고 합니다. 읽고 함께 얘기해보실 분?
[1] J. Zhao and M. Gan, “Finite-horizon optimal control for continuous-time uncertain nonlinear systems using reinforcement learning,” Int. J. Syst. Sci., vol. 51, no. 13, pp. 2429–2440, 2020, doi: 10.1080/00207721.2020.1797223.
혹시 해당 논문을 선정한 이유가 있을까요? 제가 이쪽을 잘 몰라서, 다른 것들도 있는지 궁금해서요
Minii joined this issue now
혹시 해당 논문을 선정한 이유가 있을까요? 제가 이쪽을 잘 몰라서, 다른 것들도 있는지 궁금해서요
Finite-horizon 쪽에서 강화학습 (ADP or IRL)을 적용한 논문들 위주로 살펴봤는데요, 제가 원하는 방향과 가장 일치했었습니다. 원하는 방향은 Infinite-horizon ADP or IRL 과 달리 시간에 의존하는 가치함수를 추정하는 방식이 적용된 ADP or IRL 알고리즘입니다.
Youngjun also joined this study.
이 논문은 다음주는 설연휴이니 다다음주 월(2/7)까지 읽어보는 것 어떤가요?
이 논문은 다음주는 설연휴이니 다다음주 월(2/7)까지 읽어보는 것 어떤가요?
넹~
@Youngjun-Lee-FDCL @minii93 이 논문리뷰는 괜찮다면 따로 얘기하는 것보다 여기에 답글을 달면 좋겠습니다~ 다른 이슈의 질문들을 확인하면서 보니, 이슈를 통해서 하는 논의가 모두 확인할 수 있어서 좋은 것 같다는 생각이 듭니다. 어떤가요?
@Youngjun-Lee-FDCL @minii93 이 논문리뷰는 괜찮다면 따로 얘기하는 것보다 여기에 답글을 달면 좋겠습니다~ 다른 이슈의 질문들을 확인하면서 보니, 이슈를 통해서 하는 논의가 모두 확인할 수 있어서 좋은 것 같다는 생각이 듭니다. 어떤가요?
그게 편하다면 그렇게 합시다~
다음 논문을 follow-up 해보려고 합니다. 읽고 함께 얘기해보실 분?
[1] J. Zhao and M. Gan, “Finite-horizon optimal control for continuous-time uncertain nonlinear systems using reinforcement learning,” Int. J. Syst. Sci., vol. 51, no. 13, pp. 2429–2440, 2020, doi: 10.1080/00207721.2020.1797223.
알겠습니다~
그럼 여기에 질문들을 마구 올려주시면 되겠어요~
내용적으로 어려운 것은 없었어요. 다만 수치 시뮬레이션 결과를 보면, final state를 원점으로 보내는 형태의 비용함수를 사용했음에도 state가 원점으로 수렴하지 않는 것 같은데 저만 이상해보이는 걸까요?
내용적으로 어려운 것은 없었어요. 다만 수치 시뮬레이션 결과를 보면, final state를 원점으로 보내는 형태의 비용함수를 사용했음에도 state가 원점으로 수렴하지 않는 것 같은데 저만 이상해보이는 걸까요?
저도 동일한 부분에 대해서 조금 이해가 가질 않는데요.. 파라미터(그림2, 5)를 보면 범위가 굉장히 커서 수렴을 한 것인지 잘 모르겠습니다.
다음 논문을 follow-up 해보려고 합니다. 읽고 함께 얘기해보실 분?
[1] J. Zhao and M. Gan, “Finite-horizon optimal control for continuous-time uncertain nonlinear systems using reinforcement learning,” Int. J. Syst. Sci., vol. 51, no. 13, pp. 2429–2440, 2020, doi: 10.1080/00207721.2020.1797223.