Open TiankaiHang opened 7 months ago
MoE之前没有获得大规模应用主要因为三点
本文contribution
Pipeline示意图
Switch层的好处有三个:(1)路由计算减少,因为我们只将一个token路由到单个专家。(2)每个专家的批处理大小(专家容量)可以至少减半,因为每个token只被路由到一个专家。(3)路由实现变得简化,通信成本降低。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
MoE之前没有获得大规模应用主要因为三点
本文contribution
Pipeline示意图
Switch层的好处有三个:(1)路由计算减少,因为我们只将一个token路由到单个专家。(2)每个专家的批处理大小(专家容量)可以至少减半,因为每个token只被路由到一个专家。(3)路由实现变得简化,通信成本降低。