yeyupiaoling / PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Apache License 2.0
797 stars 131 forks source link

多机单卡执行异常 #142

Closed springminhcm closed 1 year ago

springminhcm commented 1 year ago

版主你好,这几天我在研究多机单卡执行上,会出现错误,两台主机皆相同规格(主机规格与gpu皆相同,gpu:3090)以下为相关内容: A主机:192.168.7.225 B主机:192.168.7.224

于A主机执行:python -m paddle.distributed.launch --devices=0 --nnodes 2 train.py 出现讯息:python -m paddle.distributed.launch --master 127.0.1.1:63919 --devices=0 --nnodes 2 train.py (其实这里就不对了,因ip竟出现为127.0.0.1,应为192.168.7.225才是)

接下来在B主机执行:python -m paddle.distributed.launch --master 192.168.7.225:63919 --devices=0 --nnodes 2 train.py B主机就一直出现: I0224 13:50:30.278173 1512912 tcp_utils.cc:107] Retry to connect to 127.0.1.1:63917 while the server is not yet listening. I0224 13:50:33.278455 1512912 tcp_utils.cc:107] Retry to connect to 127.0.1.1:63917 while the server is not yet listening.

此时A主机则为以下讯息: I0224 13:50:30.574579 1498980 tcp_utils.cc:181] The server starts to listen on IP_ANY:63917 I0224 13:50:30.574657 1498980 tcp_utils.cc:130] Successfully connected to 127.0.1.1:63917

请问我有那儿做错了吗? 因为如果A/B主机各自执行train.py则是正常的,可以正常的训练。(所有的config与train等等都是一样的参数)

ps.两台主机皆没有设防火墙。

yeyupiaoling commented 1 year ago

看看官方文档:https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/06_distributed_training/cluster_quick_start_collective_cn.html