[BUG] hard coded to CUDA in builder.py

ehartford commented 8 months ago

Ubuntu Server 20.04 AMD mi-210 (gfx90a) ROCm 6.0 torch-2.3.0.dev20240309+rocm6.0 DeepSpeed tag v0.14.0

$ python -c "import torch; print(torch.version.hip)"
6.0.32830-d62f6a171

DeepSpeed Zero1 was working but DeepSpeed Zero2 wasn't working.

[rank14]:   File "/home/ehartford/miniconda3/envs/axolotl/lib/python3.12/site-packages/accelerate/accelerator.py", line 1598, in _prepare_deepspeed
[rank14]:     optimizer = DeepSpeedCPUAdam(optimizer.param_groups, **defaults)
[rank14]:                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank14]:   File "/home/ehartford/miniconda3/envs/axolotl/lib/python3.12/site-packages/deepspeed-0.14.1+535a908f-py3.12.egg/deepspeed/ops/adam/cpu_adam.py", line 94, in __init__
[rank14]:     self.ds_opt_adam = CPUAdamBuilder().load()
[rank14]:                        ^^^^^^^^^^^^^^^^^^^^^^^
[rank14]:   File "/home/ehartford/miniconda3/envs/axolotl/lib/python3.12/site-packages/deepspeed-0.14.1+535a908f-py3.12.egg/deepspeed/ops/op_builder/builder.py", line 479, in load
[rank14]:     return self.jit_load(verbose)
[rank14]:            ^^^^^^^^^^^^^^^^^^^^^^
[rank14]:   File "/home/ehartford/miniconda3/envs/axolotl/lib/python3.12/site-packages/deepspeed-0.14.1+535a908f-py3.12.egg/deepspeed/ops/op_builder/builder.py", line 511, in jit_load
[rank14]:     cxx_args = self.strip_empty_entries(self.cxx_args())
[rank14]:                                         ^^^^^^^^^^^^^^^
[rank14]:   File "/home/ehartford/miniconda3/envs/axolotl/lib/python3.12/site-packages/deepspeed-0.14.1+535a908f-py3.12.egg/deepspeed/ops/op_builder/builder.py", line 766, in cxx_args
[rank14]:     CUDA_ENABLE = self.is_cuda_enable()
[rank14]:                   ^^^^^^^^^^^^^^^^^^^^^
[rank14]:   File "/home/ehartford/miniconda3/envs/axolotl/lib/python3.12/site-packages/deepspeed-0.14.1+535a908f-py3.12.egg/deepspeed/ops/op_builder/builder.py", line 370, in is_cuda_enable
[rank14]:     assert_no_cuda_mismatch(self.name)
[rank14]:   File "/home/ehartford/miniconda3/envs/axolotl/lib/python3.12/site-packages/deepspeed-0.14.1+535a908f-py3.12.egg/deepspeed/ops/op_builder/builder.py", line 85, in assert_no_cuda_mismatch
[rank14]:     torch_cuda_version = ".".join(torch.version.cuda.split('.')[:2])

So, I delete DeepSpeed and install manually from source.

I set environment variables like this:

export GPU_ARCHS="gfx90a"
export ROCM_TARGET="gfx90a"
export HIP_PATH="/opt/rocm-6.0.0"
export ROCM_PATH="/opt/rocm-6.0.0"
export ROCM_HOME="/opt/rocm-6.0.0"
export HIP_PLATFORM=amd
export DS_BUILD_CPU_ADAM=1 
export TORCH_HIP_ARCH_LIST="gfx90a"

Then when I try to do DS_BUILD_CPU_ADAM=1 TORCH_HIP_ARCH_LIST="gfx90a" python setup.py install I get:

  File "/scratch/axolotl/DeepSpeed/op_builder/builder.py", line 85, in assert_no_cuda_mismatch
    torch_cuda_version = ".".join(torch.version.cuda.split('.')[:2])
                                  ^^^^^^^^^^^^^^^^^^^^^^^^
AttributeError: 'NoneType' object has no attribute 'split'

I implemented a fix that unblocked me, but it was rejected. https://github.com/microsoft/DeepSpeed/pull/5249