TiankaiHang / blog

For self learning
3 stars 0 forks source link

LM Papers #5

Open TiankaiHang opened 7 months ago

TiankaiHang commented 7 months ago

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

MoE之前没有获得大规模应用主要因为三点

本文contribution image

Pipeline示意图 image

Switch层的好处有三个:(1)路由计算减少,因为我们只将一个token路由到单个专家。(2)每个专家的批处理大小(专家容量)可以至少减半,因为每个token只被路由到一个专家。(3)路由实现变得简化,通信成本降低。 image