如何实现Device limited route

deepseek-ai / DeepSeek-V2

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

MIT License

3.47k stars 143 forks source link

@dawson-chen

Hi，可以参考我们的 group_limited_greedy gate 实现，在 236B 模型中，一个 token 最多去 3 个 rank (group，也就是一张 GPU，有 160 / 8 = 20 个 expert)，这样就可以减少通信量（每个 token 不需要去所有的 rank），所以本质上还是一个标准的 all2all-v。

(通讯组的确都是完整的，但不等价于通信量不会减少，你要考虑每个 token 去了几个 rank，每个 rank 会接收多少 token，通过恰当的 all2all 接口是可以做到的)

另外，再一种减少精度的减少通信的方法是使用低比特传输。

正如论文中所说，实现中 all2all 和 shared expert 进行了重叠，所以通信量只要能被重叠既可接受。

deepseek-ai / DeepSeek-V2

如何实现Device limited route #12