Open sakakibara-yuuki opened 10 months ago
version_base引数が必要のよう
また、 make_environmentで以下のwarningが発生。直したほうが良い
/home/sakakibara/.pyenv/versions/3.9.13/lib/python3.9/site-packages/gymnasium/core.py:311: UserWarning: WARN: env.reward_space to get variables from other wrappers is deprecated and will be removed in v1.0, to get this variable you can do `env.unwrapped.reward_space` for environment variables or `env.get_wrapper_attr('reward_space')` that will search the reminding wrappers
loss = CQLLossを使用する際に loss(data) のdataには
data = TensorDict({
"observation": torch.randn(*batch, n_obs),
"action": action,
("next", "done"): torch.zeros(*batch, 1, dtype=torch.bool),
("next", "reward"): torch.randn(*batch, 1),
("next", "observation"): torch.randn(*batch, n_obs),
}, batch)
のように暗黙的にnextというin_keysが必要.
tutorial にそう書いてある。
CQLLossの実装はDQNのtutorialに強く影響を受けているのではないか
tensordictについてもよく読むこと
cqlのexampleを触って、 https://github.com/sakakibara-yuuki/rl/blob/main/examples/cql/cql_offline.py
hydraのversionが古いのでcql exampleを書き直す必要あり