Closed Shajiu closed 2 years ago
你好,请问能提供一下详细的执行命令和环境吗?如果太长可以上传一个log文件。
目前看起来卡住的原因可能是使用多卡的分布式相关问题:
n_gpu:2
应该是使用了两张GPU,默认的README 中的卡数应该是1张或者4张。
所以想看看是不是环境配置的问题。
我这边在4卡的机器上运行单卡程序log如下,然后会正常运行。
06/29/2022 10:50:58 - WARNING - __main__ - Process rank: -1, device: cuda:0, n_gpu: 1distributed training: False, 16-bits training: False
运行的命令如下:
bash run_uie_finetune.bash -v -d 1 \
-b 16 \
-k 3 \
--lr 1e-4 \
--warmup_ratio 0.06 \
-i absa/14lap \
--epoch 50 \
--spot_noise 0.1 \
--asoc_noise 0.1 \
-f spotasoc \
--epoch 50 \
--map_config config/offset_map/closest_offset_en.yaml \
-m hf_models/uie-base-en \
--random_prompt
看您在其他几个 issue 也回复提了问题,提供一下环境和命令可以帮助更好地定位问题。
refer to #32
WARNING - main - process rank:-1 device:cuda 0 n_gpu:2 distributed training:false ,16-bits training False 然后没有任何反应停留在此,这个怎么处理哇~