mashimashica commented 2 years ago

World Models のアーキテクチャを再現する GitHub を参照する

mashimashica commented 2 years ago

Latent Belief Network の再現 Temporal Difference Variational Auto-Encoder

envzhu commented 2 years ago

やること

[x] World Model の調査
- [x] https://worldmodels.github.io/ を読む
- [x] 実装を調べる
- オリジナル: https://github.com/hardmaru/WorldModelsExperiments
- 有志によるpytorchへの移植: https://github.com/ctallec/world-models
[ ] 2Dグリッドゲーム環境でのWorld Modelの実装& 動作テスト
- [ ] モデルの実装
- [ ] 訓練コードの実装
[ ] Language World Model 化
[x] TD-VAE の調査
- [x] 論文を読む
- https://arxiv.org/abs/1806.03107
- Temporal DifferenceVariationalAuto-Encoder | Deep Learning JP
- [x] 実装を調べる
- https://github.com/xqding/TD-VAE
[ ] Language World Model に信念状態の導入

envzhu commented 2 years ago

World Model の調査

参考：https://worldmodels.github.io/

モデル

Variational Auto-Encoder (VAE)
- p(z_t|o_t)
- 畳み込みVAE
Mixture-Density Recurrent Network (MDN-RNN)
- p(z_{t+1}|z_t,a_t,h_t)
- 推論する確率分布を混合ガウス分布であると仮定して，系列予測を行うRNN
- z_t：現在の情報, h_t：RNNの隠れ表現．つまり過去の情報・世界モデルの状態
- 実際は，報酬・ゲームが終了するかどうかの予測なども行う
linear Controller (C)
- a_t = W_c[z_t, h_t]+b_c
  - []は結合を表す

訓練

前準備として，ゲーム環境からランダムな方策にしたがって10,000エピソード分のデータを取得する．VとMを訓練するために使う．以下の順に訓練を行う

前述のデータを用いてVAEを訓練
前述のデータを用いてRNNを訓練
ゲームをプレイさせて，Controllerを訓練
- 実際のゲームではなく，夢（世界モデルによってシミュレーションされた環境）をプレイさせて，訓練することも可能
- 最適化アルゴリズムはCovariance-Matrix Adaptation Evolution Strategy (CMA-ES)

envzhu commented 2 years ago

LWMについて疑問点がいくつか

論文中のVAE-Seq(V)とは時系列VAEのことだろうか．だとすると，TD-VAEのように，VAE-Seq(V)とLatent Belief Network(M)はセットで実装することになりそう
Instead the LWM has broader temporal window, as found in a temporal difference variational auto-encoder [12], but differs in that we do not know or specify how far in the future to predict.

後半のdiffers in ~の部分がどういう意味か理解できていない．

envzhu commented 2 years ago

ここでWorldModel https://colab.research.google.com/drive/1XFEWpF3VuBF91qwnKEILohNYX2aMXdLG?usp=sharing

tcmalloc: large alloc 3221225472 bytes == 0x55c009d2e000 @ 0x7fda969d91e7 0x55bf9da97da8 0x7fda8e708fdd 0x55bf9daa5125 0x55bf9da65902 0x55bf9dad8c4d 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da66f21 0x55bf9da67341 0x55bf9dad5ff1 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad8d30 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad8d30 0x55bf9dad3cdd 0x55bf9da6688a 0x55bf9dad48f6 tcmalloc: large alloc 3221233664 bytes == 0x55c26a7a0000 @ 0x7fda969bbb6b 0x7fda969db379 0x7fd974c0a2a6 0x7fd97463118b 0x7fd9746b2dba 0x7fd9746b52e5 0x7fda8e4f6dae 0x7fda8e4f671f 0x7fda8e70a5dc 0x7fda8e709ab8 0x55bf9da65902 0x55bf9dad8c4d 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da66f21 0x55bf9da67341 0x55bf9dad5ff1 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad8d30 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad4b4f 0x55bf9da667aa Killed

envzhu commented 2 years ago

ゲーム環境の開発が完了していると助かる

envzhu commented 2 years ago

元論文では，Mmeoryの部分にAmortised VIを用いているので，その調査が必要そう A Brief, High-Level Intro to Amortized VI | Jonathan Gordon

envzhu commented 2 years ago

作業ブランチ https://github.com/envzhu/WM2021_LWM/tree/vae

envzhu commented 2 years ago

1000エピソード分の学習結果 vae_test

mashimashica / WM2021_LWM

World Models の再現（Listenerの再現のため） #1

World Model の調査

モデル

訓練