long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[27] DSelect-k: Differentiable Selection in the Mixture of Experts with Applications to Multi-Task Learning #30

Closed long8v closed 2 years ago

long8v commented 2 years ago
image

paper, code

problem : MoE에서 sparsely gated(=top k)하는 부분이 미분가능하지 않음. solution : result : 그냥 top-k 하는 것보다 성능을 22% 올림

image

sparse gate는 n개의 expert에서 k개를 뽑기 때문에 cardinality-constrained optimization인데 binary encoding scheme로 완화하는 방법을 제안한다. top-k는 expert 수의 linear하게 계산이 드는데 우리의 DSelect-k는 log linear 관계에 있다.

...