Open soteb opened 1 year ago
试试 4.30.2 版本的 transformers
好像是 Windows 和 Mac 没有 NCCL,pip 安装 gloo,然后在 train.sh 里面加上 --ddp_backend gloo
好像是 Windows 和 Mac 没有 NCCL,pip 安装 gloo,然后在 train.sh 里面加上 --ddp_backend gloo
感谢,您提供的方法,试过也不行。
试试 4.30.2 版本的 transformers
升级试了,错误代码有点不同,正文修改了错误输出代码,应该也是同样问题
Is there an existing issue for this?
Current Behavior
请问以下错误怎么修正,谢谢! 报错module 'torch._C' has no attribute '_cuda_setDevice'
曾测试过:
、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、 NOTE: Redirects are currently not supported in Windows or MacOs. master_addr is only used for static rdzv_backend and when rdzv_endpoint is not specified. [2023-07-20 21:02:26,093] [INFO] [real_accelerator.py:133:get_accelerator] Setting ds_accelerator to mps (auto detect) Traceback (most recent call last): File "/Users/jimmy/ai/ChatGLM2-6B/ptuning/main.py", line 431, in
main()
File "/Users/jimmy/ai/ChatGLM2-6B/ptuning/main.py", line 66, in main
model_args, data_args, training_args = parser.parse_args_into_dataclasses()
、、、、、、、、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/transformers/hf_argparser.py", line 346, in parse_args_into_dataclasses
obj = dtype(*inputs)
、、、、、、、、、、、、
File "", line 116, in init
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/transformers/training_args.py", line 1340, in post_init__
and (self.device.type != "cuda")
、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/transformers/training_args.py", line 1764, in device
return self._setup_devices
、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/transformers/utils/generic.py", line 54, in get
cached = self.fget(obj)
、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/transformers/training_args.py", line 1695, in _setup_devices
self.distributed_state = PartialState(backend=self.ddp_backend)
、、、、、、、、、、、、、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/accelerate/state.py", line 197, in init
torch.cuda.set_device(self.device)
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/torch/cuda/init.py", line 350, in set_device
torch._C._cuda_setDevice(device)
、、、、、、、、、、、、
AttributeError: module 'torch._C' has no attribute '_cuda_setDevice'
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 84353) of binary: /opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/bin/python
Traceback (most recent call last):
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/bin/torchrun", line 8, in
sys.exit(main())
、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/torch/distributed/elastic/multiprocessing/errors/ init__.py", line 346, in wrapper
return f( args, **kwargs)
、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/torch/distributed/run.py", line 794, in main
run(args)
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/torch/distributed/run.py", line 785, in run
elastic_launch(
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/torch/distributed/launcher/api.py", line 134, in call
return launch_agent(self._config, self._entrypoint, list(args))
、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、
File "/opt/homebrew/Caskroom/miniconda/base/envs/chatglm2cpu/lib/python3.11/site-packages/torch/distributed/launcher/api.py", line 250, in launch_agent
raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、
main.py FAILED
、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、
Failures: