Open listwebit opened 10 months ago
我们的代码支持单机多卡,多机多卡可以参考deepspeed的文档: https://www.deepspeed.ai/getting-started/#resource-configuration-multi-node。 与单机相比,多机训练主要需要以下几个步骤:
node0
node1
node2
确保任意两台机器间可以通过ssh nodeX
直接登陆。从我们的经验来说,一台8卡40G,1TB内存的机器足够在deep3 + offload的情况下微调70B模型。
多机多卡可以直接以“deepspeed multinode”为关键词搜索,可以找到许多较例子。
有几个问题请教一下大佬: 1.你们放出的代码是否支持多机多卡的增量预训练呢?需要怎么做呢,因为我看没有配置多个机器的地方呀?
2.70B的模型持续增量预训练,至少需要多少个机器呢? 3.有多机卡训练的教程吗
谢谢大佬的回复