CaI - Githubissues

Shoichi-Hasegawa0628 commented 1 year ago

https://www.slideshare.net/ShoheiTaniguchi2/ss-238325780 https://www.slideshare.net/DeepLearningJP2016/dlcontrol-as-inference-201266247 https://speakerdeck.com/shunichi09/sergey-levine-lecture-remake-14th-control-as-inference?slide=5

Shoichi-Hasegawa0628 commented 1 year ago

理解すること

(厳密推論と変分推論以外は完了) Control as Inferenceで使用される数式の理解
(理解完了) 何の制御を推論として捉えているのか ⇒ 強化学習の最適制御を確率推論として捉える．
(理解完了) 最適変数とは結局なんなのか強化学習の最適制御問題を確率推論で扱うために，報酬rの代わりに用いたもの．
SpCoNaviやSpCoTMHPにおける制御とは何なのか．それをどう推論に紐づけたのか

Shoichi-Hasegawa0628 commented 1 year ago

Control as Inference (確率推論としての制御) (人工知能概論 p142) 強化学習における最適制御やプランニングを確率的グラフィカルモデルの推論として見なし，定式化すること．

強化学習における報酬r_tの代わりに最適性o_tという二値変数を導入．
P(o_t+1, | s_t, a_t) ∝ exp(r(s_t, a_t))と書き換える．

「将来に得られる累積報酬を最大化する行動を計画するという強化学習の問題」 ⇒ 「将来にわたって最適であり続けるとすれば，自らが今後取る行動はどのような行動系列a_t:Tであるかを推論する問題」

スライドシェア 強化学習における最適制御問題 (プランニング，方策探索問題．人工知能概論では最適方策を見つける問題．)

強化学習はマルコフ決定過程に基づき定式化される． MDP環境である方策P(a | s)の下で行動すると考えると，時刻Tまでの軌道τ = (s1, a1, s2, ..., s_T, a_T)は，

P(τ) = P(s_1) ．．．となる．(T=1のときを考えて，s1とa1はgivenで，s2は潜在変数の時，乗法でs1とa1を引っ張り出し，方策の定義をもとに式を構成．あとはT化して一般化すれば導出できる)

また，報酬関数をr_t+1 = r(s_t, a_t)とすると，報酬の和の期待値を最大化する方策を見つけることが問題になるため， E_p(τ)[∑ r(s, a)]の式になる． (和の期待値 = 期待値の和)

↓↓↓ 強化学習における最適制御問題は報酬rを定義することにより定式化されている．これを確率的グラフィカルモデルで定式化できるのか？

確率的グラフィカルモデルで考えると，マルコフ決定過程のグラフィカルモデルがベースになる．しかしグラフィカルモデルには，状態sと行動aしか変数が存在しないため，最適方策の下で導出される軌道τの計算ができない． mdp

⇒ 状態と行動に関する変数を新たに設ける必要！(強化学習でも報酬rを定義してるので) ⇒⇒ 「ある時刻tの状態s_tと行動a_tが最適か否かを評価する確率変数」を定義． Ot = {0, 1}，1は最適，0は最適でない ↓↓↓

O_tを導入したため，報酬関数rと互換性を保つ必要がある． P(ot = 1 | st, at) = exp( r(st, at) ) (逆にいうと，報酬関数が常に負．log Pなので，P^-1になるので) saiteki

↓↓↓ 確率的グラフィカルモデル上で明示的に最適変数を示すことができたので，あとは軌道τの推論をするだけ． P_opt(τ | o_1:T = 1) = P(τ，O_1:T) / P(O_1:T) ∝ P(τ，O_1:T)

強化学習のときと同じように，(t=1で考えて，あとは一般化する．それか，s1を乗法で飛ばして確率の積にしていく) = P(s1, a1, O1) P(O2:T, s2, a2, .., sT, aT | s1, a1, O1) = P(s1) P(O1 | s1, a1) P(O2:t | s2, a2, ..., sT, aT) P( s2,...., sT, a2,...aT | s1, a1)

= P(s1) π P(ot = 1 | st, at) P(s_t+1 | st, at) = P(s1) π exp(r(st, at)) p(s_t+1 | st, at) ← 最適性の定義から = [P(s1) π P(s_t+1 | st, at)] exp(∑r(s_t, a_t)) ← expの総乗を展開すると指数は和になるので∑に置き換えれる

状態遷移的に可能性が高い(1項) かつ expの収益が最も大きい軌道τが選ばれる．

↓↓↓ ここまで整うと， τの推論式を計算するために (具体的な分布を定義したり)，・厳密推論：Forward-backwardアルゴリズム・近似推論：変分推論が出てくる．

Shoichi-Hasegawa0628 commented 1 year ago

SpCoNavi ・SpCoNaviはナビゲーション手法ではなくて、ローカルでボトムアップに得た知識をゴールの推定に一つの生成モデルの中で活用する手法・SpCoNaviのcontributionはプランニング手法としてではなくてSpCoSLAMのような知識をナビゲーションにそのまま確率的に転用できる

↓ SpCoNaviの凄いところ 従来の行動計画は，強化学習の最適制御問題の枠組みで解かれることが多かったが， CaIの考えを適用すると行動計画を確率推論で解くことができる．

CaIを記号創発ロボティクス系の研究に適用させた最初の研究．二番目は，黄瀬さんのTRGAIL (強化学習と模倣学習をCaIの上であつかう) ↓↓

・これまでの場所概念モデル系の研究はカテゴリゼーションしかやってない．行動選択はできない． ⇒ 行動計画を教師なしベイズ確率的生成モデルで定式化し，ナビゲーションを実現させた．

・CaIの考えに基づいたSpCoSLAMの拡張は，人の生音声発話文を分節して，その分節された後の場所に関する単語を最適性として捉えることで，事前にローカルで学習したパラメータを用いて (SpCoSLAM)，その場所の単語が発話されたであろう場所の空間領域までの軌道を確率推論で出せる．だからxy座標とか命令文に与えたり，物体ラベルを地図上で対応させなくてもプランニングできる．

軌道の事後分布はCaIに基づき定式化し，実際の占有格子地図上の軌道計算はA*とビタビアルゴリズムに任せた？

個人ナビゲーション手法というのは一人歩きしていて，こういうナビゲーションアプローチの印象．強化学習による意思決定を確率的生成モデル上の確率推論として捉え，音声発話からゴール位置を推論できるの凄いが,

VLNや他のプランニング手法の方が移動距離やSuccess rateなどを最先端な手法で比較してTop Conferenceに採択されているから，知名度が低いような感じだろうか． SpCoNavi自体，他の手法と音声発話で比較というのが難しいのだろうか．あとは現状のSpCoNaviは実環境データとは言ってもrosbagで収集したものでspcoを学習して，地図 (画像)上の軌道生成のみに留まっているから，実際に運用できるか (ロボットの身体的問題)というのがありそう．

実際にデモビデオみたいなので，人の音声発話 ⇒ 分節 ⇒ パスプランニング実行みたいなのが見せれたらインパクトありそう?

Shoichi-Hasegawa0628 commented 1 year ago

SpCoNaviでの不明点・ftの依存関係と軌道事後分布の関係 (グラフィカルモデルの依存関係を確認 (赤井先生の本)) ・軌道事後分布と近似推論との関係 (A*と事後分布がどう関わっているのか．どちらは何を推定しているのか)

CaIとは離れている不明点なので，後日見直すとりあえずはCaIはOK

Shoichi-Hasegawa0628 / summary_paper

CaI #77