PaperReviewStudy / prstudy4ml

2 stars 1 forks source link

[WEEK1] Meta Reinforcement Learning as Task Inference Q&A #1

Closed SooDevv closed 4 years ago

SooDevv commented 4 years ago

If you have any questions, please ask it in this issue

SooDevv commented 4 years ago
deephoony commented 4 years ago

Q1. state space와 observation state의 차이는? A1. POMDPs에서는 observation state가 state space의 부분집합으로 보셔도 될 것 같습니다. 즉 실제 (full) state distribution이 있는데 학습하는 agent 입장에서 관찰되는 부분적인 state가 observation state입니다.

Q2. belief state가 prior인가요? A2. belief state는 agent가 생성한 trajectory(tau)가 conditional하게 주어졌을 때 실제 task information(w)의 posterior입니다.

Q3. prior는 어떻게 설정하나요? A3. 이 논문에서는 posterior를 sampling하고 off-policy RL 알고리즘을 쓸 수 있는 수학적 당위성을 얻기 위해 prior가 사용되었지만 실제로 알고리즘 자체에서는 direct로 supervised learning을 했기때문에 사용되지 않은 것 같습니다. 어떻게 보면 label로 사용되었다고 퉁칠 수도 있겠네요. 기타 true posterior(belief state)를 측정하기가 매우 intractable할 때는 variational lower bound를 구해서 variational inference로 posterior를 추정할 때는 inference network를 Gaussian prior를 이용하여 KLD로 minimize하기도 합니다. (혹시 이 계열의 알고리즘에 관심이 있으시면 PEARL - https://arxiv.org/pdf/1903.08254.pdf)을 보시기를 추천합니다!

Q4. belief state와 같은 용어가 잘 이해가 안됩니다. A4. 일반적으로는 POMDPs에서 direct로 RL을 하는것은 말이 안되기때문에 pi(a|s, z)와 같이 task에 대한 모든 정보를 담고 있다고 가정하는 latent variable z를 우리가 inference할 수 있어야 합니다. POMDPs에서의 meta RL 문제 세팅에서는 이 latent variable z가 belief state가 되고, observation trajectory가 conditional하게 주어졌을 때 실제 state(또는 task)의 probability로 정의됩니다(슬라이드 참조).

Q5. what is main stream of meta learning? A5. Few-shot learning 관점에서의 meta learning조차도 이제는 점점 autoML처럼 task를 자동으로 생성하고 이를 지속적으로, 어쩌면 사람처럼 계속계속계속 학습하기를 원합니다. 이를 모델링하기 위한 연구자들의 노력이 계속 되는 것 같구요. Continual meta learning, Unsupervised meta learning, Online meta learning 등의 키워드로 검색해보시면 좋을 것 같습니다.