Open llliuxz opened 1 year ago
这个模型是模型并行的,主进程会额外占用一个master_port。找到可用端口后,这个端口可能被其它服务占用,导致模型启动失败,这块儿有什么规避的方法吗? 代码在 site-packages/sat/arugments.py
没看懂,模型并行怎么可能world_size == 1
可以设置MASTER_PORT环境变量来手动指定。
这个模型是模型并行的,主进程会额外占用一个master_port。找到可用端口后,这个端口可能被其它服务占用,导致模型启动失败,这块儿有什么规避的方法吗? 代码在 site-packages/sat/arugments.py