thu-pacman / SmartMoE-AE

ATC23 AE
GNU General Public License v3.0
42 stars 4 forks source link

smartmoe性能问题 #1

Open cccc0der opened 1 year ago

cccc0der commented 1 year ago

你好

我在megatron-deepspeed里分别继承了megatron的switch mlp和smartmoe里的megatron-mlp进行对比。

模型采用GPT结构,1.3B大小,两种实现分别设置2个专家实验,未设置专家并行,从模型结构上看没有什么问题。

smart-moe: MegatronMLP image

megatron-lm: SwitchMLP image

实验结果上同样数据集和batchsize,SwitchMLP要高于MegatronMLP,TFlops分别是10.x 和 8.x。

在论文中你们比较了deepspeed-moe和上一版本的fastmoe,我想请问一下是否有做过和Megatron-LM的moe性能比较