Closed WhXmURandom closed 11 months ago
重新安装与cuda11.1版本对应的torch后,又出现新的报错。
重新安装与cuda11.1版本对应的torch后,又出现新的报错。
把实验路径删了,或者注释掉以下代码试试: https://github.com/wenet-e2e/wespeaker/blob/6550a2ae9b431662b78df393af4440be23a787df/wespeaker/bin/train.py#L60-L61
把modeldir删掉了,现在卡在这里十多分钟,是正常的吗?
仍然报错
使用单gpu的时候可以运行,多gpu就跑不动
看起来是nccl的问题
换成gloo似乎也不行
应该是卡在了dist.barrier(device_ids=[gpu])
在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了
在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了
请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行
NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \
在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了
请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行
NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \
在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了
请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行
好像还是不行 并且我尝试zhi只使用一个gpu,还是会报错 并且很奇怪的是像是刚刚运行就错误了 请问您有什么想法或者知道怎么做吗
NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \
在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了
请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行
好像还是不行 并且我尝试zhi只使用一个gpu,还是会报错 并且很奇怪的是像是刚刚运行就错误了 请问您有什么想法或者知道怎么做吗
你把exp_dir删除再运行
NCCL_P2P_DISABLE=1 torchrun --standalone --nnodes=1 --nproc_per_node=$num_gpus \
在脚本前加入NCCL_P2P_DISABLE=1可以多卡跑了
请问是在哪个脚本加入这个呢 我在wespeaker/examples/cnceleb/v2的run.sh里尝试加入这句话然后./run.sh运行还是不行
好像还是不行 并且我尝试zhi只使用一个gpu,还是会报错 并且很奇怪的是像是刚刚运行就错误了 请问您有什么想法或者知道怎么做吗
你把exp_dir删除再运行
好的 万分感谢 解决了