pchiang5 commented 1 year ago

Describe the bug A hyperparameter training.py ran well without deepspeed. However, when I tried deepspeed --master_port XXXXX hyperparameter training.py --deepspeed --deepspeed_config ds_config_zero3.json, the following error showed up:

RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:12344 (errno: 98 - Address already in use). The server socket has failed to bind to DESKTOP:12344 (errno: 98 - Address already in use). The scenario did not change with or without --master_port XXXXX and whatever XXXXX is.

The JSON file worked fine with other transformer test codes.

To Reproduce deepspeed --master_port XXXXX hyperparameter training.py --deepspeed --deepspeed_config ds_config_zero3.json

See error

Expected behavior same result with or without deepspeed

ds_report output

DeepSpeed C++/CUDA extension op report

NOTE: Ops not installed will be just-in-time (JIT) compiled at runtime if needed. Op compatibility means that your system meet the required dependencies to JIT install the op.

JIT compiled ops requires ninja ninja .................. [OKAY]

op name ................ installed .. compatible

async_io ............... [YES] ...... [OKAY] cpu_adagrad ............ [YES] ...... [OKAY] cpu_adam ............... [YES] ...... [OKAY] fused_adam ............. [YES] ...... [OKAY] fused_lamb ............. [YES] ...... [OKAY] quantizer .............. [YES] ...... [OKAY] random_ltd ............. [YES] ...... [OKAY] [WARNING] sparse_attn requires a torch version >= 1.5 and < 2.0 but detected 2.0 [WARNING] please install triton==1.0.0 if you want to use sparse attention sparse_attn ............ [NO] ....... [NO] spatial_inference ...... [YES] ...... [OKAY] transformer ............ [YES] ...... [OKAY] stochastic_transformer . [YES] ...... [OKAY] transformer_inference .. [YES] ...... [OKAY]

DeepSpeed general environment info: torch install path ............... ['/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/torch'] torch version .................... 2.0.1+cu117 deepspeed install path ........... ['/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/deepspeed'] deepspeed info ................... 0.9.5, unknown, unknown torch cuda version ............... 11.7 torch hip version ................ None nvcc version ..................... 11.7 deepspeed wheel compiled w. ...... torch 2.0, cuda 11.7 Screenshots

from ray.air import session

def train(config):

...

session.report({"metric": metric}, checkpoint=checkpoint)

For more information please see https://docs.ray.io/en/latest/tune/api/trainable.html

warnings.warn( == Status == Current time: 2023-07-05 17:44:57 (running for 00:00:00.14) Using FIFO scheduling algorithm. Logical resource usage: 0/48 CPUs, 0/1 GPUs Result logdir: /root/ray_results/_objective_2023-07-05_17-44-57 Number of trials: 1/100 (1 PENDING) +---------------------+----------+-------+-----------------+---------------------+--------------------+------------------------+---------+----------------+----------------+ | Trial name | status | loc | learning_rate | lr_scheduler_type | num_train_epochs | per_device_train_bat | seed | warmup_steps | weight_decay | | | | | | | | ch_size | | | | |---------------------+----------+-------+-----------------+---------------------+--------------------+------------------------+---------+----------------+----------------| | _objective_34c4d0bf | PENDING | | 0.000273286 | cosine | 1 | 2 | 2.95034 | 666.814 | 0.00542326 | +---------------------+----------+-------+-----------------+---------------------+--------------------+------------------------+---------+----------------+----------------+

(pid=1261991) [2023-07-05 17:45:04,062] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect) (_objective pid=1261991) /home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/loompy/bus_file.py:67: NumbaDeprecationWarning: The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. The implicit default value for this argument is currently False, but it will be changed to True in Numba 0.59.0. See https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-object-mode-fall-back-behaviour-when-using-jit for details. (_objective pid=1261991) @jit (_objective pid=1261991) /home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/loompy/bus_file.py:84: NumbaDeprecationWarning: The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. The implicit default value for this argument is currently False, but it will be changed to True in Numba 0.59.0. See https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-object-mode-fall-back-behaviour-when-using-jit for details. (_objective pid=1261991) @jit (_objective pid=1261991) /home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/loompy/bus_file.py:101: NumbaDeprecationWarning: The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. The implicit default value for this argument is currently False, but it will be changed to True in Numba 0.59.0. See https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-object-mode-fall-back-behaviour-when-using-jit for details. (_objective pid=1261991) @jit 2023-07-05 17:45:13,039 ERROR tune_controller.py:873 -- Trial task failed for trial _objective_34c4d0bf Traceback (most recent call last): File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/air/execution/_internal/event_manager.py", line 110, in resolve_future result = ray.get(future) ^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/_private/auto_init_hook.py", line 18, in auto_init_wrapper return fn(*args, kwargs) ^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/_private/client_mode_hook.py", line 103, in wrapper return func(*args, *kwargs) ^^^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/_private/worker.py", line 2540, in get raise value.as_instanceof_cause() ray.exceptions.RayTaskError(RuntimeError): ray::ImplicitFunc.train() (pid=1261991, ip=172.31.110.212, actor_id=e89ea88d08173a4db6aa2caa01000000, repr=_objective) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/tune/trainable/trainable.py", line 389, in train raise skipped from exception_cause(skipped) File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/tune/trainable/function_trainable.py", line 336, in entrypoint return self._trainable_func( ^^^^^^^^^^^^^^^^^^^^^ ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/tune/trainable/function_trainable.py", line 653, in _trainable_func output = fn() ^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/transformers/integrations.py", line 357, in dynamic_modules_import_trainable return trainable(args, kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/ray/tune/trainable/util.py", line 324, in inner return trainable(config, fn_kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/transformers/integrations.py", line 258, in _objective local_trainer.train(resume_from_checkpoint=checkpoint, trial=trial) File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/transformers/trainer.py", line 1614, in train self._hp_search_setup(trial) File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/transformers/trainer.py", line 1330, in _hp_search_setup self.create_accelerator_and_postprocess() File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/transformers/trainer.py", line 3968, in create_accelerator_and_postprocess self.accelerator = Accelerator( ^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/accelerate/accelerator.py", line 345, in init self.state = AcceleratorState( ^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/accelerate/state.py", line 680, in init PartialState(cpu, kwargs) File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/accelerate/state.py", line 191, in init torch.distributed.init_process_group(backend=self.backend, **kwargs) File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/torch/distributed/distributed_c10d.py", line 900, in init_process_group store, rank, world_size = next(rendezvous_iterator) ^^^^^^^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/torch/distributed/rendezvous.py", line 245, in _env_rendezvous_handler store = _create_c10d_store(master_addr, master_port, rank, world_size, timeout) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/home/pc/miniconda3/envs/Transformers/lib/python3.11/site-packages/torch/distributed/rendezvous.py", line 176, in _create_c10d_store return TCPStore( ^^^^^^^^^ RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:12344 (errno: 98 - Address already in use). The server socket has failed to bind to DESKTOP:12344 (errno: 98 - Address already in use). Result for _objective_34c4d0bf: date: 2023-07-05_17-45-04 hostname: DESKTOP node_ip: 172.31.110.212 pid: 1261991 timestamp: 1688550304 trial_id: 34c4d0bf

(_objective pid=1261991) [W socket.cpp:426] [c10d] The server socket has failed to bind to [::]:12344 (errno: 98 - Address already in use). (_objective pid=1261991) [W socket.cpp:426] [c10d] The server socket has failed to bind to DESKTOP:12344 (errno: 98 - Address already in use). (_objective pid=1261991) [E socket.cpp:462] [c10d] The server socket has failed to listen on any local network address. (pid=1262131) [2023-07-05 17:45:19,058] [INFO] [real_accelerator.py:110:get_accelerator] Setting ds_accelerator to cuda (auto detect)

System info (please complete the following information):

OS: [Ubuntu 20.04]
GPU count and types [1 machine with GRX 1650 ]
Python version 3.11
Any other relevant info about your setup

Launcher context Launching your experiment with the deepspeed launcher

Docker context NO

Additional context WSL2