wenet-e2e / wespeaker

Research and Production Oriented Speaker Verification, Recognition and Diarization Toolkit
Apache License 2.0
630 stars 109 forks source link

单机多卡训练报错问题 #271

Closed wcqy-ye closed 6 months ago

wcqy-ye commented 6 months ago

想请教如何解决单机多卡的训练问题,安装的pytorch包和cuda环境应该没问题,个人感觉像是在使用nccl做为后端的语句的时候就报错了,以下是只用单卡运行的报错信息,多卡报错信息一样: image 希望得到回复,有任何可能的帮助都会非常感谢的!

JiJiJiang commented 6 months ago

几个建议,可以试试看:

  1. 看看机器有无安装nccl,命令行nvcc --version
  2. 没有nccl,可以试试改成gloo
  3. 排查一下机器的网络配置,看着像报了一些通信的error
wcqy-ye commented 6 months ago

几个建议,可以试试看:

  1. 看看机器有无安装nccl,命令行nvcc --version
  2. 没有nccl,可以试试改成gloo
  3. 排查一下机器的网络配置,看着像报了一些通信的error

您好!,谢谢您的建议,我现在测试了nvcc --version image 以及gloo还是一样的结果 image 所以现在推测可能是不同进程通信导致的,我测试了使用tcp连接两个端口 可以连接,请问还有什么其他的测试或者方法解决吗 感谢您的回答!

企业微信截图_17070362592432 企业微信截图_17070362787751
JiJiJiang commented 6 months ago

可以参考 issues/221 , 跑下单机单卡看看

wcqy-ye commented 6 months ago

可以参考 issues/221 , 跑下单机单卡看看

emm还是不行 这个issue的问题我之前也遇到过,感觉并不是同一个问题

wcqy-ye commented 6 months ago

问题已经被解决了发现是没有设置一个MASTER_ADDR环境变量的问题导致的,我之前没有怎么接触过分布式训练,我是看见了gpt写的测试语句才逐渐发现是少了这个环境变量,请问现在一般不用设置这个环境变量吗 我另一台服务器不用设置这个变量也能正常运行

企业微信截图_17070712562628 企业微信截图_17070711196318
JiJiJiang commented 6 months ago

我跑的时候都不用设置这个环境变量 这个看着可能仅适用于单机多卡,wespeaker也支持多机多卡的;