Closed daixiangzi closed 9 months ago
moe_group
默认是全局所有进程的 group
moe_group
默认是全局所有进程的 group- 对的. 相当于有 16 个专家.
- 这个比较奇怪. 可能是专家本身参数比较少. 可能需要进行一些调试以获得更多的信息.
那保存模型的时候是不是我得把每个rank的checkpoint 保存下来
那保存模型的时候是不是我得把每个rank的checkpoint 保存下来
是的
那保存模型的时候是不是我得把每个rank的checkpoint 保存下来
是的
按这样,单机推理的时候是不是得初始化16个专家,然后加载模型的函数得重写? 请问有没有完善的保存成单卡模型的函数?
按这样,单机推理的时候是不是得初始化16个专家,然后加载模型的函数得重写?
是的
请问有没有完善的保存成单卡模型的函数?
我们目前没有。欢迎 contribute
按这样,单机推理的时候是不是得初始化16个专家,然后加载模型的函数得重写?
是的
请问有没有完善的保存成单卡模型的函数?
我们目前没有。欢迎 contribute
好的,感谢回复
我用上面代码训练的时候,我有一点疑问:(单机8卡) 1)上述代码是不是还需要添加一个moe_group? 2)这里是不是相当于我有2 x world_size=2x8=16个专家? 3)当我把num_expert改成1或者8的时候,占用的显存似乎差不多