Torch Cuda Error - Githubissues

mertalbaba commented 1 year ago

Bug description

While running the following code, this error occurs:

Traceback (most recent call last):
  File "main.py", line 73, in <module>
    gail_trainer.train(20000)
  File "/local/home/.virtualenvs/gailenv/lib/python3.8/site-packages/imitation/algorithms/adversarial/common.py", line 452, in train
    self.train_disc()
  File "/local/home/.virtualenvs/gailenv/lib/python3.8/site-packages/imitation/algorithms/adversarial/common.py", line 346, in train_disc
    for batch in batch_iter:
  File "/local/home/.virtualenvs/gailenv/lib/python3.8/site-packages/imitation/algorithms/adversarial/common.py", line 598, in _make_disc_train_batches
    log_policy_act_prob = self._get_log_policy_act_prob(obs_th, acts_th)
  File "/local/home/.virtualenvs/gailenv/lib/python3.8/site-packages/imitation/algorithms/adversarial/common.py", line 504, in _get_log_policy_act_prob
    scaled_acts_th = self.policy.scale_action(acts_th)
  File "/local/home/.virtualenvs/gailenv/lib/python3.8/site-packages/stable_baselines3/common/policies.py", line 371, in scale_action
    return 2.0 * ((action - low) / (high - low)) - 1.0
  File "/local/home/.virtualenvs/gailenv/lib/python3.8/site-packages/torch/_tensor.py", line 956, in __array__
    return self.numpy()
TypeError: can't convert cuda:0 device type tensor to numpy. Use Tensor.cpu() to copy the tensor to host memory first.

Steps to reproduce

I used the GAIL training code shared in your documentation in Humanoid-v3 environment. Code is written below:

from stable_baselines3 import SAC
import numpy as np
import torch
import gym
from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.ppo import MlpPolicy

from imitation.algorithms.adversarial.gail import GAIL
from imitation.data import rollout
from imitation.data.wrappers import RolloutInfoWrapper
from imitation.rewards.reward_nets import BasicRewardNet
from imitation.util.networks import RunningNorm
from imitation.util.util import make_vec_env

device = torch.device('cuda:0')
torch.cuda.empty_cache()

print("Loading expert demonstrations...")
rng = np.random.default_rng(0)

env = gym.make("Humanoid-v3")
expertAgent = SAC.load("path/to/file/humanoid.zip", print_system_info=False)

print("Rollouts...")
rollouts = rollout.rollout(
    expertAgent,
    make_vec_env(
        "Humanoid-v3",
        n_envs=5,
        post_wrappers=[lambda env, _: RolloutInfoWrapper(env)],
        rng=rng,
    ),
    rollout.make_sample_until(min_timesteps=None, min_episodes=60),
    rng=rng,
)

print("Training...")
venv = make_vec_env("Humanoid-v3", n_envs=8, rng=rng)
learner = SAC("MlpPolicy", venv, verbose=1)
reward_net = BasicRewardNet(
    venv.observation_space,
    venv.action_space,
    normalize_input_layer=RunningNorm,
)

gail_trainer = GAIL(
    demonstrations=rollouts,
    demo_batch_size=1024,
    gen_replay_buffer_capacity=2048,
    n_disc_updates_per_round=4,
    venv=venv,
    gen_algo=learner,
    reward_net=reward_net,
)

gail_trainer.train(20000)
rewards, _ = evaluate_policy(learner, venv, 100, return_episode_rewards=True)
print("Rewards:", rewards)

Environment

Operating system and version: Ubuntu 20.04.5 LTS
Python version: Python 3.8.10

Output of pip freeze --all:

absl-py==1.4.0
cachetools==5.3.0
certifi==2022.12.7
cffi==1.15.1
chai-sacred==0.8.3
charset-normalizer==3.0.1
cloudpickle==2.2.1
colorama==0.4.6
contourpy==1.0.7
cycler==0.11.0
Cython==0.29.33
docopt==0.6.2
fasteners==0.18
filelock==3.9.0
fonttools==4.38.0
gitdb==4.0.10
GitPython==3.1.30
glfw==2.5.5
google-auth==2.16.0
google-auth-oauthlib==0.4.6
grpcio==1.51.1
gym==0.21.0
huggingface-hub==0.12.0
huggingface-sb3==2.2.4
idna==3.4
imageio==2.25.0
imitation==0.3.2
importlib-metadata==4.13.0
joblib==1.2.0
jsonpickle==3.0.1
kiwisolver==1.4.4
Markdown==3.4.1
MarkupSafe==2.1.2
matplotlib==3.6.3
mujoco-py==2.1.2.14
munch==2.5.0
numpy==1.24.1
nvidia-cublas-cu11==11.10.3.66
nvidia-cuda-nvrtc-cu11==11.7.99
nvidia-cuda-runtime-cu11==11.7.99
nvidia-cudnn-cu11==8.5.0.96
oauthlib==3.2.2
packaging==23.0
pandas==1.5.3
Pillow==9.4.0
pip==20.0.2
pkg-resources==0.0.0
protobuf==3.20.3
py-cpuinfo==9.0.0
pyasn1==0.4.8
pyasn1-modules==0.2.8
pycparser==2.21
pyglet==1.5.27
pyparsing==3.0.9
python-dateutil==2.8.2
pytz==2022.7.1
PyYAML==6.0
requests==2.28.2
requests-oauthlib==1.3.1
rsa==4.9
scikit-learn==1.2.1
scipy==1.10.0
seals==0.1.5
setuptools==44.0.0
six==1.16.0
smmap==5.0.0
stable-baselines3==1.7.0
tensorboard==2.11.2
tensorboard-data-server==0.6.1
tensorboard-plugin-wit==1.8.1
threadpoolctl==3.1.0
torch==1.13.1
tqdm==4.64.1
typing-extensions==4.4.0
urllib3==1.26.14
wasabi==1.1.1
Werkzeug==2.2.2
wheel==0.34.2
wrapt==1.14.1
zipp==3.11.0

mertalbaba commented 1 year ago

FYI problem is in def _get_log_policy_act_prob function (Line 504 in imitation/algorithms/adversarial/common.py). This function takes torch tensor inputs, and forwards them to stable_baselines3 scale_action function, which expects numpy arrays, not tensors.

ernestum commented 1 year ago

Thanks for the bug report. This is probably a duplicate of #655 we already have a fix for this in #660. Try checking out that PR as long as we did not merge it yet.

ernestum commented 1 year ago

Fixed by #660

HumanCompatibleAI / imitation

Torch Cuda Error #668

Bug description

Steps to reproduce

Environment