Open mashimashica opened 2 years ago
Latent Belief Network の再現 Temporal Difference Variational Auto-Encoder
やること
参考:https://worldmodels.github.io/
前準備として,ゲーム環境からランダムな方策にしたがって10,000エピソード分のデータを取得する.VとMを訓練するために使う. 以下の順に訓練を行う
LWMについて疑問点がいくつか
論文中のVAE-Seq(V)とは時系列VAEのことだろうか.だとすると,TD-VAEのように,VAE-Seq(V)とLatent Belief Network(M)はセットで実装することになりそう
Instead the LWM has broader temporal window, as found in a temporal difference variational auto-encoder [12], but differs in that we do not know or specify how far in the future to predict.
後半のdiffers in ~
の部分がどういう意味か理解できていない.
ここでWorldModel https://colab.research.google.com/drive/1XFEWpF3VuBF91qwnKEILohNYX2aMXdLG?usp=sharing
tcmalloc: large alloc 3221225472 bytes == 0x55c009d2e000 @ 0x7fda969d91e7 0x55bf9da97da8 0x7fda8e708fdd 0x55bf9daa5125 0x55bf9da65902 0x55bf9dad8c4d 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da66f21 0x55bf9da67341 0x55bf9dad5ff1 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad8d30 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad8d30 0x55bf9dad3cdd 0x55bf9da6688a 0x55bf9dad48f6 tcmalloc: large alloc 3221233664 bytes == 0x55c26a7a0000 @ 0x7fda969bbb6b 0x7fda969db379 0x7fd974c0a2a6 0x7fd97463118b 0x7fd9746b2dba 0x7fd9746b52e5 0x7fda8e4f6dae 0x7fda8e4f671f 0x7fda8e70a5dc 0x7fda8e709ab8 0x55bf9da65902 0x55bf9dad8c4d 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da66f21 0x55bf9da67341 0x55bf9dad5ff1 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad8d30 0x55bf9da667aa 0x55bf9dad4b4f 0x55bf9dad3a2e 0x55bf9da6688a 0x55bf9dad4b4f 0x55bf9da667aa Killed
ゲーム環境の開発が完了していると助かる
元論文では,Mmeoryの部分にAmortised VIを用いているので,その調査が必要そう A Brief, High-Level Intro to Amortized VI | Jonathan Gordon
1000エピソード分の学習結果
World Models のアーキテクチャを再現する GitHub を参照する