Closed wuxiaofei01 closed 1 year ago
作者你好,我最近在运行你们团队的代码,但是我发现很难将代码移植到单机多卡环境。 我的run_r2r.sh为:
name=DSRG_r2r DATA_ROOT=../datasets train_alg=dagger features=vitbase ft_dim=768 ngpus=4 seed=0 outdir=${DATA_ROOT}/R2R/ pretrain_file=${DATA_ROOT}/R2R/pretrain/model_step_best_360000.pt flag="--root_dir ${DATA_ROOT} --dataset r2r --output_dir ${outdir} --world_size ${ngpus} --seed ${seed} --tokenizer bert --name ${name} --train navigator --model r2r --enc_full_graph --graph_sprels --fusion dynamic --expert_policy spl --train_alg ${train_alg} --num_l_layers 9 --num_x_layers 4 --num_pano_layers 2 --max_action_len 15 --max_instr_len 200 --batch_size 4 --lr 5e-6 --iters 100000 --log_every 1000 --optim adamW --features ${features} --image_feat_size ${ft_dim} --angle_feat_size 4 --ml_weight 0.2 --feat_dropout 0.5 --dropout 0.5 --gamma 0. " python3 -m torch.distributed.launch \ r2r/main_nav.py $flag \ --nproc_per_node=4 \ --tokenizer bert \ --bert_ckpt_file ${pretrain_file}
但是我的程序一直卡在 dist.init_process_group(**init_param),请问有其他办法能解决么
dist.init_process_group(**init_param)
@wxf-0415 你好,这个代码仓库是基于DUET改进的,目前pre-train的代码可以单机多卡训练,但是fine-tune只能单卡训练。
感谢你的回复
作者你好,我最近在运行你们团队的代码,但是我发现很难将代码移植到单机多卡环境。 我的run_r2r.sh为:
但是我的程序一直卡在
dist.init_process_group(**init_param)
,请问有其他办法能解决么